论文部分内容阅读
知识库问答能够利用知识库信息通过匹配、推理来获取用户问题的答案,是自动问答的重要组成部分。其目标是自动理解用户提出的问题,并从网络信息中提取答案。知识库问答的核心是深层理解自然语言,利用深度学习技术,能够将问题与知识库共同映射到低维语义空间,把问答转化为问题语义与知识库语义的向量相似性判断问题。因此知识库问答的发展应聚焦于自然语言语义特征表示研究。目前,知识库问答研究中的难题大多是围绕自然语言语义特征表示的,主要包括:(1) 目前对于以自然语言描述的问题还没有一种统一的表示方法,并且不同问题之间的语义关系缺乏深入研究;(2)自然语言表述通常有歧义,对于不同语境下的同一文本可能蕴含不同的意义,因此准确理解问题的语义非常困难;(3)将结构化的知识库转化为对应于问题表示的语义特征需要借助深度学习算法,随着知识库规模的飞速增长相应的深度学习算法需要不断改进;(4)知识库语义特征来源于不同的知识库,这些相互关联的知识库往往结构并不相同。因此需要一种有效方法,能够利用不同来源的知识库语义特征自动生成答案。针对知识库问答中的问题与不足确立本文研究内容,主要集中在改进问题表示、问题语义特征选择、知识库语义表示以及知识库语义聚类等四个方面。(1)针对问题语义表示,提出基于量子理论的量子分布表示方法。利用量子态、量子叠加态、酉算子及量子混合态理论实现字符级量子分布表示,用来表示基本字符、单词、短语以及动态文本,并利用词嵌入表示学习方法训练量子嵌入。该方法能够体现丰富的语素特征,更充分的表示文本间的语义关系。并且利用密度算子将单词、句子及篇章级的长文本表示为尺寸统一的密度矩阵,而不需要对输入文本做统一尺寸的预处理。实验表明本文提出的量子分布表示方法在语义相关性、同义词检测、文本分类以及情感分析等任务中效果都优于对比模型。(2)针对问题语义理解,提出基于卷积神经网络模型的语义特征选择方法。引入多层感知卷积来增强对非线性可分概念的抽象能力,为了进一步改进模型效率在多层感知卷积层中采用Dropout策略。然后利用改进模型实现对量子嵌入的语义特征选择。该方法采用量子分布表示作为模型输入,即不需要为文本进行形态标注的预处理,也不需要在输入层采用预训练的词嵌入表示。并且通过引入多层感知卷积在很大程度上缩减了模型参数的规模。实验表明,基于量子语义空间的卷积神经网络特征选择方法能够表示出更丰富的语义特征及字词的拼写特征。(3)针对知识库语义表示,提出基于知识图谱与语料联合嵌入的知识库语义表示方法。利用知识图谱与语料联合嵌入方法实现量子分布表示与知识图谱的联合嵌入,用来提升知识库自动扩充的效率。该方法提高了量子分布表示之间语义关系的利用效率。并且量子分布表示的规模远小于同等词汇量的词嵌入表示,使得文本模型可以直接计算。实验表明,该方法在三元组分类、关系抽取及链路预测等任务中性能均优于对比方法。(4)针对答案生成,提出基于生物地理学优化的语义聚类算法。将吸引子传播策略引入生物地理学优化来增强算法挖掘数据间关系的能力,并采用Memetic框架加强算法的全局搜索能力,最后采用密度峰值聚类策略实现语义聚类。该方法能够充分的挖掘语义表示之间的深层关系,利用改进生物地理学优化的全局搜索能力提高了语义聚类的效果。实验表明该方法的精度和效率均优于对比算法。