论文部分内容阅读
随着互联网上信息的爆炸式增长,人们对信息检索的需求越来越大。如何快速、精确、可靠地从大量的、结构多样化的信息中搜索到用户需要的信息,成为一个热门的迫切需要解决的课题。以Google为首的传统的搜索引擎主要是基于关键词匹配的一种信息检索技术,它从互联网中以一定的策略搜集、爬取信息,对信息进行解析、索引,为用户提供检索服务。传统搜索引擎存在搜索接口不友好、搜索过程复杂、返回信息量大、返回内容针对性不强等问题。基于传统搜索引擎存在的不足,面向自然语言查询的知识搜索系统被提出。本文主要研究知识搜索系统中两个关键技术:基于知识图谱的知识搜索和基于社区问答的知识搜索。针对事实性的问题,本文提供了基于结构化的知识图谱数据的知识搜索服务。这种检索模式存在检索语法复杂、数据结构复杂等问题。因此,如何将无结构化的自然语句映射到结构化查询语句是该模块的核心。本文首先在从自然表达语句到知识库中的实体和关系的映射上,提出了基于层次化实体映射和基于外部数据集的关系映射算法。同时,本文还提出了基于手工定义模板和基于语义关系抽取的自动生成算法,实现从无结构化自然查询语句到结构化查询语句之间的映射。针对非事实性的问题,本文提供了基于无结构化的社区问答数据的知识搜索服务。本文从基于问题跟问题相似度匹配和问题跟答案相似度匹配两个方向解决问题。在问题跟问题相似度匹配模型中,我们提出改进的WMD算法,该算法根据社区问答数据的特性对原始的WMD算法进行改进,算法的结果比传统的BM25算法以及原始的WMD算法在性能上都有了较大提高。在问题与答案相似度匹配模型中,当前学术界主要的思想是通过深度学习在NLP领域的应用来比较两个句子或者段落的语义相似度,本文在这些模型的基础上,考虑问题和答案在数据集上的共现特征,提高了模型在处理答案简短、关键词与问题语义不匹配等情况下性能低下的问题。