论文部分内容阅读
随着计算机可读的文本信息日益增多,有效查找和利用这些信息的迫切需求使得信息检索与信息抽取技术日益重要。但传统的搜索引擎存在的一些弊端给用户带来了一定的不便,如:用户的检索需求简单表示为一组关键词,往往会丢失很多语义信息;检索返回的结果为相关链接或文档列表,用户仍需阅读文档或片段以定位到真正需要的信息。问题回答的研究解决了这些存在的问题,首先,用户可将信息检索的需求表达为自然语言描述的问题,其次,问题回答将在文档集合中搜索并返回问题的精确答案。这个任务看似简单,但对于计算机具有很大的挑战性。本文正是在这种前提下,对问题回答技术进行了探索性研究。 论文的工作主要集中在基于模式知识库实现问题回答的关键技术上,设计并实现了问题回答系统,参加了国际文本检索会议的评测。以此为基础,我们将模式匹配技术应用到了一个相关的更新的研究领域-阅读理解,并取得了好的效果。 实现模式匹配策略最关键也是最核心的任务,即建立一个完善的模式知识库。我们提出了一种基于答案类型与问题模式的问题分类体系,同时保留了问题的语义信息与结构信息。借助TREC的评测问题集作为我们的训练与测试数据,对不同的问题分类类型进行答案模式的自动学习与评价。 我们对具有复杂结构的问题实现了模式学习,包含多个问题元素的较复杂的答案模式对于抽取出正确答案更有效更可靠。这是简单模式所无法覆盖的。同时,我们对模式匹配得到的侯选答案增加了语义类型约束,使其有更高的准确率。 为了使学习到的答案模式有更好的可扩展性,我们采取了泛化策略,在模式中加入了实体名的信息,这样,模式组成结构中不仅包含词形,也融入了语义信息,使其具有较好的鲁棒性。 答案模式的评价指标采用了数据挖掘中的可信率(Confidence)与支持率(Support)。高可信率的答案模式有更高的可靠性抽取到正确答案。 在阅读理解系统的实现中,我们引入了WordNet的同义词信息、模式匹配和上下文辅助策略,取得了明显的效果,进一步提高了系统性能,性能超过了之前的最好结果。