论文部分内容阅读
问答系统能识别人类以自然语言形式输入的问题,并且以高度精练、准确的自然语言,迅速地回答人类的问题。相比于传统的信息检索系统,问答系统的用户不需要使用诸如关键字之类的不自然的形式来检索信息,而且问答系统给出的答案也不是包含大篇幅文本的网页或文档,而是针对具体问题的、较为精练准确的、以自然语言形式组织的答案。问答系统在许多领域中已经发挥出较大的作用,但仍有其不足之处。在问答系统的设计方式上,基于常见问题的问答系统在用户问题覆盖率上具有较大的局限性;基于非结构化文本的问答系统虽然有较高的覆盖率,但准确率很难提升;基于知识图谱的问答系统虽然能给出较为准确的答案,但系统的构建需要耗费大量人力成本。可见,基于单一知识来源的问答系统设计方式不能充分利用行业领域现有的多种知识来源,难以平衡效果和成本。而在构建问答系统的技术上,现有的问答系统大多使用基于规则或统计的方法,这从原理上就限制了它们对多个知识来源的利用能力。如何利用更先进的技术来提升问答系统对不同知识来源的处理利用能力,设计更优质的问答系统,是一个巨大的挑战。要利用好多个不同来源的知识,需要先分析各个来源的知识的特点,并根据其特点设计相应的算法,使系统具备同时处理具有不同特点的多来源知识的能力,这是一项庞大的工程。本文运用了包括知识图谱、命名实体识别、文本相似度匹配以及机器阅读理解等技术在内的多种技术,以深度学习算法为主、其它算法为辅,设计并构建了一个能利用多来源知识回答用户提出的关于产品信息的问题的智能问答系统。系统在各知识来源之间取长补短,尽最大努力回答用户问题,能够较好地平衡系统效果与成本等因素。本文针对产品知识图谱、常见问题库和产品信息文档这三个知识来源,设计了三个问答模块,以根据对应来源的知识回答用户的问题:(1)针对产品知识图谱这一知识来源,本文设计了知识图谱问答模块,该模块通过识别用户问题中的实体,然后将用户问题转换为知识图谱的查询命令,调用知识图谱数据库并生成答案;(2)针对常见问题库这一知识来源,本文设计了相似匹配问答模块,该模块将用户问题与常见问题库中的常见问题进行相似度计算,选择与用户问题最相似的常见问题对应的答案来回答用户问题;(3)针对产品信息文档这一知识来源,本文设计了阅读理解问答模块,该模块先从较大规模的非结构化的文档中粗筛出对回答用户问题可能有用的部分,然后再利用较为复杂的精选算法来选取最终答案。本文设计了一个问答融合模块,用于对上述多个基于不同知识来源的问答模块进行整合,根据各个知识来源的特点以及各模块的输出,决策最终的答案并输出。本文所使用的数据与产品文档是强相关的,与现有已公开的数据集不一致,所以不能使用公开数据集训练和验证模型。为训练和验证本文所设计的多个模型,本文中还设计并制作了多个对应的数据集。