论文部分内容阅读
如今在互联网上获得各种信息已经是一件与生活息息相关的事情,然而用户经常会用到的传统搜索引擎有很多缺点,例如搜索引擎的基于关键字查询,并不能够很好地表明用户的查询意图,而且返回的查询结果是一大堆相关网页,包含很多无用的信息,用户很难快速、准确地找到自己所需要的信息。问答系统正是为了克服搜索引擎这些缺点而产生,它允许用户使用自然语言的形式进行提问,返回给用户的结果是简短、精确的答案,而不是大量相关的网页,所以问答系统的研究具有很大的实际意义。但是由于中文文字的特殊性和复杂性,中文信息处理技术有较大的难度,所以中文问答系统较国外来说还不够成熟,因此有必要对其进行深入的研究。本文主要致力于一个简单问答系统的完整功能的设计与实现。问答系统包括三个部分:问题分析、信息检索和答案抽取。虽然搜索引擎有其不足之处,但是搜索引擎的搜集文档功能是问答系统的关键技术。目前,有很多成熟大型的搜索引擎,例如谷歌、百度和有道等等,但是本文对搜索引擎的结构体系和实现方法进行了研究,在自己的实验环境下搭建了一个小型搜索引擎,“小型”不是指功能上的省略,而主要是指网页收集规模和存储空间的使用两个方面。搜索引擎的设计包括了三个子系统的详细设计:搜集子系统、索引建立子系统和检索子系统。其中包含的关键技术和算法:并行抓取技术、启发式搜集策略、镜像消除技术、高效率索引技术、相关度评价策略等等。在着力于信息检索模块的搜索引擎设计之外,本文对如何从信息检索得到的相关网页和文档中抽取出答案做了研究,即答案抽取模块。它是问答系统最为核心的模块之一,它的抽取方法好坏直接影响着问答系统性能的优劣。这里采取了一种基于语义依存树的相似度计算方法,结合句子的语义和句法结构来计算问句和候选答案句之间的相似度,通过比较相似度的高低来筛选出答案返回给用户。本文的实验采用TREC评测标准,实验中事实型问题的答案抽取平均MRR值为0.6915,定义型问题答案抽取MRR平均值为0.6524。实验表明,该基于小型搜索引擎的问答系统可以正常工作,并且该答案抽取方法有较高的MRR值,具有较高的答案抽取的准确度。