论文部分内容阅读
问答系统可以视为信息检索问题的一种特殊形式。给定一个文档集合,一个问答系统致力于找到这个使用自然语言形式提出来的问题的答案。问答是一个多学科的课题,它包括了信息技术,人工智能,自然语言处理,知识和数据管理和认知科学。从技术的角度来说,问答系统使用了自然的或者统计的语言处理技术,信息检索技术,知识表达和推理技术作为潜在的构建模块。它包括了文本分类,信息抽取和总结技术。一般上讲,问答系统有三个部分:问题分类,信息抽取,答案抽取,这些成分扮演着不可或缺的角色在问答系统中。问题分类扮演者初级的角色在问答系统中,依据问题中实体的类型来分类问题。信息检索技术通过他们智能的问答系统抽取可应用的答案来获得一种识别的上的成功。最后,提出主题从答案抽取模块中,而这些模块通常需要排序操作,并验证候选答案。本课题的研讨内容有以下几个方面:(1)本文研究了不同粒度语义单位的分布式表达,从词语,短语,句子到段落和篇章。本文介绍了分布式语义表示的概念,比较了不同种类的构造分布式表的方法,并比较了各种方法的优劣。现有的语义分布式表示学习主要侧重于词和短语的表示学习,对于句子和篇章的分布式表示学习方法还处于开始阶段。(2)本文研究基于知识库的问答系统。语义知识库对于构架问答系统来说必不可少,而目前获取语义知识大多数来源于结构化数据,且大部分集中于英语方面,在汉语语义知识如何获取方面还要进一步的探索。由于不同种语言的知识库之间是相互独立的,因此多语言知识库的融合方法也值得探讨。本文构架了本系统所需要的关于地理方面的汉语知识库,由大量从百科中抽取到三元组组成。(3)本文将语义分布式表示加入融合到基于知识库的问答系统中,把问题句子和候选答案同时转化成分布式语义表示的向量,训练时通过梯度下降算法使得问题和正确答案在语义空间上相似度更大。进一步的工作致力于使用结构更复杂,学习能力更强的神经网络来提高系统表现。通过实验表明,使用语义分布式表达结合到基于知识库的问答系统中,将问题和候选答案通过神经网络映射到同一个向量空间,来计算空间上的语义相似度,取得了比较不错的结果。