面向知识库问答的自然语言语义特征表示研究

来源 :山东师范大学 | 被引量 : 4次 | 上传用户:hongqiulongxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识库问答能够利用知识库信息通过匹配、推理来获取用户问题的答案,是自动问答的重要组成部分。其目标是自动理解用户提出的问题,并从网络信息中提取答案。知识库问答的核心是深层理解自然语言,利用深度学习技术,能够将问题与知识库共同映射到低维语义空间,把问答转化为问题语义与知识库语义的向量相似性判断问题。因此知识库问答的发展应聚焦于自然语言语义特征表示研究。目前,知识库问答研究中的难题大多是围绕自然语言语义特征表示的,主要包括:(1) 目前对于以自然语言描述的问题还没有一种统一的表示方法,并且不同问题之间的语义关系缺乏深入研究;(2)自然语言表述通常有歧义,对于不同语境下的同一文本可能蕴含不同的意义,因此准确理解问题的语义非常困难;(3)将结构化的知识库转化为对应于问题表示的语义特征需要借助深度学习算法,随着知识库规模的飞速增长相应的深度学习算法需要不断改进;(4)知识库语义特征来源于不同的知识库,这些相互关联的知识库往往结构并不相同。因此需要一种有效方法,能够利用不同来源的知识库语义特征自动生成答案。针对知识库问答中的问题与不足确立本文研究内容,主要集中在改进问题表示、问题语义特征选择、知识库语义表示以及知识库语义聚类等四个方面。(1)针对问题语义表示,提出基于量子理论的量子分布表示方法。利用量子态、量子叠加态、酉算子及量子混合态理论实现字符级量子分布表示,用来表示基本字符、单词、短语以及动态文本,并利用词嵌入表示学习方法训练量子嵌入。该方法能够体现丰富的语素特征,更充分的表示文本间的语义关系。并且利用密度算子将单词、句子及篇章级的长文本表示为尺寸统一的密度矩阵,而不需要对输入文本做统一尺寸的预处理。实验表明本文提出的量子分布表示方法在语义相关性、同义词检测、文本分类以及情感分析等任务中效果都优于对比模型。(2)针对问题语义理解,提出基于卷积神经网络模型的语义特征选择方法。引入多层感知卷积来增强对非线性可分概念的抽象能力,为了进一步改进模型效率在多层感知卷积层中采用Dropout策略。然后利用改进模型实现对量子嵌入的语义特征选择。该方法采用量子分布表示作为模型输入,即不需要为文本进行形态标注的预处理,也不需要在输入层采用预训练的词嵌入表示。并且通过引入多层感知卷积在很大程度上缩减了模型参数的规模。实验表明,基于量子语义空间的卷积神经网络特征选择方法能够表示出更丰富的语义特征及字词的拼写特征。(3)针对知识库语义表示,提出基于知识图谱与语料联合嵌入的知识库语义表示方法。利用知识图谱与语料联合嵌入方法实现量子分布表示与知识图谱的联合嵌入,用来提升知识库自动扩充的效率。该方法提高了量子分布表示之间语义关系的利用效率。并且量子分布表示的规模远小于同等词汇量的词嵌入表示,使得文本模型可以直接计算。实验表明,该方法在三元组分类、关系抽取及链路预测等任务中性能均优于对比方法。(4)针对答案生成,提出基于生物地理学优化的语义聚类算法。将吸引子传播策略引入生物地理学优化来增强算法挖掘数据间关系的能力,并采用Memetic框架加强算法的全局搜索能力,最后采用密度峰值聚类策略实现语义聚类。该方法能够充分的挖掘语义表示之间的深层关系,利用改进生物地理学优化的全局搜索能力提高了语义聚类的效果。实验表明该方法的精度和效率均优于对比算法。
其他文献
以苦水玫瑰花和沙棘果这两种天然植物为原料,苦水玫瑰经浸泡提取花汁,沙棘果打浆酶解,过滤后得沙棘果汁,添加甜菊糖及稳定剂调配口感舒适的饮料。结果表明,玫瑰花汁提取最佳
<正>一、光度单位坎德拉的概念、定义及历史变迁发光强度单位坎德拉是国际单位制中的七个基本单位之一,它是描述光源在某一方向上发出可见光强弱的程度。人类很早就开始了对
分析了中国国家情报的斗争性、战略性与人民性,以及中国国家情报的战略与战术,阐述了中国国家安全的总体性与人民性。从国家冲突的周期波动规律推导出国家情报、国家安全与国
<正>当光学辐射进入人眼时,首先被在眼球前方的透明层的角膜所折射,然后经过位于用于辨色的虹膜中心的瞳孔,进而通过位于透镜后结点处的晶状透镜折射形成倒置的或反转的像,瞳
<正>0引言我国的光伏市场自2009年正式规模化启动以来,2013年开始成为世界第一大光伏市场,连续3年光伏年装机量超过10 GW;截至2015年底,我国的光伏累计装机量已超过43 GW。我
战后中国 ,冷战、内战与边疆民族的自治倾向相交织 ,内蒙民族自治一时也成为国内政治和对外关系中的焦点之一。美国对华政策以抗衡苏联为主导 ,以国民党政权为前驱 ,对内蒙古
通过对包装中常用的PE,PVC,PP3种热塑性塑料薄膜超声波热封工艺实验的研究,得到了影响封合质量因素的规律,初步确定了以上3种热塑性塑料薄膜超声波热封工艺参数,为超声波热封
针对<钢结构设计规范>(GB50017)(以下简称"新规范")中T形截面受弯构件φb的取值,进行重新计算分析.计算出受弯构件不同λy所对应的φb值,与"新规范"中φb取值进行比较.发现"
对客户知识体系进行了探索,对客户知识、行为特征和产品的概念及其关系进行了研究,搭建了客户知识精确营销体系架构,结合现有营销活动过程建立了基于客户知识的精确营销闭环
目前,在无线电发射设备中,已经广泛采用无线电发射设备。一般情况下,对无线电发射设备使用进行管理的过程中,通常采取传导方式对设备进行运行测试,如此不仅会导致检测工作具