【摘 要】
:
对目前问答系统的性能分析表明,用于答案抽取来源的文档的相关性是制约问答系统性能的主要因素。相关文档检索作为问答系统的一个重要组成部分,其检索结果与问题的相关性将直
【出 处】
:
沈阳航空工业学院 沈阳航空航天大学
论文部分内容阅读
对目前问答系统的性能分析表明,用于答案抽取来源的文档的相关性是制约问答系统性能的主要因素。相关文档检索作为问答系统的一个重要组成部分,其检索结果与问题的相关性将直接影响答案抽取的效果。相关文档检索的研究包括问题分类、查询扩展及排序算法三方面。从近几年对问答系统的研究来看,由针对人名、地名等事实类问题的回答转向对关系类、定义类等复杂类型问题的回答上。本文着重于研究查询扩展与排序算法,主要工作包括以下几个方面:第一,针对现有基于用户查询日志的扩展方法中没有考虑日志中数据源权威度的问题,结合问题类型信息,提出了一种基于日志可信度的查询扩展方法。在计算查询与网页的相关度时加入权威度因子,采用局部上下文分析方法获取相关词语列表,根据问题类型优化查询。实验结果表明,该方法能有效地改善传记类和定义类问题的查询性能。第二,对于特定类型的问题,文档中会出现相关的特征词,本文借助知网的实体属性间关系,找出类型-特征词对,构建类别模型。第三,采用基于类别模型的两阶段排序策略。首先采用多策略的排序融合算法,然后在N-best的基础上,利用类别模型对文档进行重排序。实验证明,该方法有效地提高了检索的准确率。最后本文实现了一个相关文档检索系统,实现对输入问句的检索,应用本文提出的查询扩展方法和排序算法,在NTCIR-7标准测试集上与Lucene检索系统进行比较。实验表明对于中文复杂类问题本系统的检索性能优于Lucene。下一步工作尝试建立更加准确的类别模型指导重排序。
其他文献
随着现代生物学和医学的发展,生物免疫学的研究得到了极大拓展,同时也使免疫学产生了许多交叉学科。近年来,计算机科学和其它工程科学与免疫学交叉研究逐渐成为国际研究领域
随着多媒体技术和网络技术的发展,视频、图像等多媒体信息的传输业务日益广泛的应用于人们的生活。然而在信息的传输通道中,无论是IP网络还是无线移动网络信道,都不可避免的
本文主要从文本预处理和文本聚类两方面较为系统的研究了中文文本聚类的全过程。首先介绍了文本聚类关键技术的基本现状,让读者对文本聚类的主要过程有了进一步的了解。针对
本文主要针对当前工作流管理系统在实际应用中集成能力差、柔性差、互操作性不高、模型缺乏对分布式环境的支持等缺点,提出了基于SOA的工作流管理系统。SOA和Web服务作为一种
利用数据的相似性对海量数据进行检索是计算机科学中的一个热点研究问题,在多个计算机领域应用广泛。利用数据的相似性进行检索的方法分为两类,最邻近检索和近似最邻近检索。
随着人类基因组计划的顺利完成,出现了许多高通量技术预测基因功能的方法,但是从这些方法产生的大量的候选基因集合中检测致病基因仍是一个十分艰巨的挑战,如果直接使用生物
随着用工作流的方法管理业务流程的需求的不断增加,人们提出了各种各样的模型和分析方法。而现存的工作流产品缺乏对动态变化所必须的柔性支持,远远不能满足企业的应用需求。
可重构计算成为近年来体系结构研究的热点。该计算方式兼顾生产标准化和应用定制化的优点,填补了传统指令集处理器和定制系统之间的空白。可重构计算的高性能和低功耗的特性
图书馆作为信息资源建设的重要部门,收藏了大量有重要学术价值的音视频多媒体信息资源,其本意是在校园局域网内为全校师生员工提供多样化的信息服务。但是,这些音视频信息资源数
随着面向服务架构(Service-Oriented Architecture,SOA)的发展和应用,Web上出现了越来越多的跨平台的、跨语言的、可扩展的、可靠和安全的服务。当用户提出服务请求后,如何根