定义类问题回答研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:hebeikbyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对定义类问题回答(QA)进行了系统的研究,介绍了一种基于外部资源的定义类问题回答方法。定义类问题回答系统很大程度上依赖于它所采用的知识源,我们尝试利用在线知识库、结构化模板等多种外部资源来提高定义类问题回答系统的性能。我们采用可行并且有效的方法综合利用问题目标词语在多个在线知识库中的定义。在基于GDS的定义抽取算法中,我们基于每个候选句子与这些外部知识的相似度来对候选句子集合进行排序;而在基于EDS的定义抽取算法中,我们首先从这些外部知识中提取出关于目标词定义的关键点,然后在语料库中投影出这些关键点所对应的句子,从而实现定义句抽取的目标。由于定义性的句子通常以某种特定的句式叙述,我们同时利用结构化的模板进行补充。为了对系统进行准确的、可比较的评价,我们参加了TREC2004和TREC2005的定义类QA任务的评测。在与同类系统的比较中可以看到,我们的基于外部资源的定义抽取方法取得了令人满意的成绩一一两次评测分别位于28个参评系统的第2位和30个参评系统的第2位。 对系统返回的结果进行主观的、手工的评价十分耗时费力,会影响定义类问题回答方法研究的进度。本文提出了一种定义类问题回答系统的自动评价方法。该方法综合考虑了系统返回的答案和TREC提供的答案的n-gram(n=1,2,3)共现率,并且为了方便与TREC提供的人工评价结果进行比较,沿用了TREC的F分值机制。该方法是完全自动进行的,无需人力的参与。实验结果显示,该方法可以很好的模拟人工评价,快速并正确地评价系统返回答案的质量。
其他文献
传统的集散控制方式所实现的供水系统,达到了“以分散控制为主,集中管理为辅”的系统要求,可以基本上满足城市自动化供水的需求。但这种系统的最主要缺点是:系统开放性差、而且是
随着计算机技术的发展,急剧产生海量的数据。如何从这些数据中提取有用的信息是一个重要的问题。粗糙集理论-一种新的数据分析方法-在分类的意义下定义了模糊性和不确定性的概
现场稽核就是稽核对象对被稽核对象进行现场检查的过程。目前在国内的现场稽核(审计)中,大多数单位还采用传统的手工方式进行,另外现场稽核是一个经常变化的过程,也就是说现场稽
随着世界经济全球化的加快,国内外市场环境要求国内的公众电信运营企业在经营理念、管理模式上能有一个较高层次的飞跃,以求在电信运营业的国际化竞争中立于不败之地。客户服
随着电信市场竞争的不断加剧,基于客户关系管理的信息化支撑工作越来越重要。在此背景下,BSS(Business Support System)系统的建设任务摆在面前,虽然整个项目有国际咨询公司的参
随着网络技术的发展及链路带宽的不断提升,Internet上承载的音频、视频流业务日益丰富。这些新兴的多媒体应用需要网络提供端到端的QoS控制和保证。然而,目前的Internet缺乏有
很多实际应用问题中包含的信息可以抽象成图,将实体抽象成点,实体间的相应关系抽象成边,解决好图问题就可以很好地解决好与之对应的实际问题。但是随着数据量的累积,相应的图模型
在网页信息迅速爆炸的时代,为提高用户的检索效率,对网络数据进行有效的整合成为了一个重要的研究课题。网络数据呈现半结构化状态,如商品数据、博客等,并且数据来自世界各地,语言
本文所研究的网格计算应用中间件,位于GBuilder的最低层面,用于适配封装底层支撑软件,使上层网格计算应用能通过统一标准的接口调用服务实现,而不依赖于特定的底层架构工具箱。具
随着多媒体技术和高速网络的发展,网站逐渐演变为一种多媒体网络应用。视频点播,在线歌曲和电影,IP(Internet Protocol)电话,互联网广播和电视,以及互动游戏都变成了互联网上