论文部分内容阅读
本文对定义类问题回答(QA)进行了系统的研究,介绍了一种基于外部资源的定义类问题回答方法。定义类问题回答系统很大程度上依赖于它所采用的知识源,我们尝试利用在线知识库、结构化模板等多种外部资源来提高定义类问题回答系统的性能。我们采用可行并且有效的方法综合利用问题目标词语在多个在线知识库中的定义。在基于GDS的定义抽取算法中,我们基于每个候选句子与这些外部知识的相似度来对候选句子集合进行排序;而在基于EDS的定义抽取算法中,我们首先从这些外部知识中提取出关于目标词定义的关键点,然后在语料库中投影出这些关键点所对应的句子,从而实现定义句抽取的目标。由于定义性的句子通常以某种特定的句式叙述,我们同时利用结构化的模板进行补充。为了对系统进行准确的、可比较的评价,我们参加了TREC2004和TREC2005的定义类QA任务的评测。在与同类系统的比较中可以看到,我们的基于外部资源的定义抽取方法取得了令人满意的成绩一一两次评测分别位于28个参评系统的第2位和30个参评系统的第2位。
对系统返回的结果进行主观的、手工的评价十分耗时费力,会影响定义类问题回答方法研究的进度。本文提出了一种定义类问题回答系统的自动评价方法。该方法综合考虑了系统返回的答案和TREC提供的答案的n-gram(n=1,2,3)共现率,并且为了方便与TREC提供的人工评价结果进行比较,沿用了TREC的F分值机制。该方法是完全自动进行的,无需人力的参与。实验结果显示,该方法可以很好的模拟人工评价,快速并正确地评价系统返回答案的质量。