基于信息抽取的英文问句意图分类

来源 :西华大学 | 被引量 : 0次 | 上传用户:linyibaby
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着AI技术的发展,问答系统技术也逐渐走向了成熟。问答系统可通过信息抽取技术来准确的理解分析自然语言问题,并返回较为准确的问题答案。根据答案的来源不同,问答系统可分为生成式问答系统和检索式问答系统。其中根据信息提供方式的不同,检索式问答系统又可分为基于搜索引擎的web信息检索与基于知识库的信息检索。随着开放知识库以及知识图谱技术的发展,知识库的检索式问答系统被广泛关注。基于知识库的问答系统主要解决由三元组(实体,关系,实体)构成的事实类问题。在信息抽取阶段,通过抽取问句中的三元组成分来理解问句。实体,关系作为我们三元组的重要组成单元,准确的抽取问句中的相关实体和关系不仅有利于更好的理解分析问句同时能够提供更加准确的问句意图领域类别。本文主要研究方向为通过抽取问句中的实体和关系信息,分析实体和关系与问句中其它关键词的潜在含义,实现问句的意图分类。本文的主要研究内容包括以下部分:实体和关系抽取的模型。本文提出了一个新的实体和关系抽取模型,该模型将整个实体和关系的抽取任务化分为两个子任务:实体和关系关键词抽取、关系映射。在实体和关系关键词抽取任务中,设计了一个新的序列标注模式和一个端到端的实体和关系关键词抽取的序列标注模型(BI-LSTM-LSTM)。在关系映射任务中,借助知识库wikidata中的信息,提取关系特征得到特征向量,并构建了特征匹配函数得到关系与关系关键词映射。问句意图分类。利用问句中的实体和关系信息构建了问句意图分类模型。根据问句中实体和关系的抽取结果将问句分成两部分:已提取出完整三元组关系的问句,未提取出完整三元组关系的问句。对于前者本文给出了基于答案实体类别路径树的问句意图分类方法。对于后者本文建立了基于KNN算法的问句意图分类算法,通过提取句子级别的特征构建句子级别的特征向量来衡量问句间的距离。为了验证上述两个模型的有效性,在Webquestion,Graph Question等相关数据集上进行了实验与分析。实验结果表明本文提出实体和关系抽取模型,同等条件下,分别在实体抽取、关系抽取、以及实体和关系综合抽取任务中都获得了高于其它模型的F1值。在问句意图分类任务方面,实验分析得出本文模型能够较好的完成英文问句意图分类任务。
其他文献
尾矿是选矿中分选作业的产物之一,矿石经过选别、综合利用处理后,其主要有用组分富集成精矿,而其它残留物质称尾矿,因此尾矿是矿产中有用目标组分含量最低的部分。由于技术经济条
东平湖大青虾,又名“沼虾”,俗称河虾,属十足目、长臂虾科、沼虾属,因其体色青蓝并伴有棕绿色斑纹,形如竹节而个体大,故名大青虾。2014年获得国家农产品地理标志保护,其性凶
高温季节虾蟹进入快速生长期,同时也是虾蟹发病率最高的时期,养殖户对高温期间虾蟹出现的疾病应该采取哪些防治措施昵?下面做一简单介绍。一、病毒性疾病1.对虾白斑病 病原:白斑病
在上海市全市地域内,按网格布点对环境陆地γ辐射剂量率水平进行了长期,系统的监测和调查。调查结果表明,上海市天然贯穿辐射剂量率室内,外平均值分别为(12.26±1.29)×10^-8和(8.88±0.98)&#21
炭黑,一种无定形碳,是因有机物不充分燃烧或受热分解而得到的黑色粉末。炭黑是人类最早知道的石油化工原料之一,而我国是世界上最早生产炭黑的国家之一,在技术上拥有丰富的经
在水产养殖场很容易观察到一种现象,无论是什么种类的传染性疾病在养殖鱼类中发生时,均不大可能导致全池的所有养殖鱼类在同一时间发病,而总是有一部分养殖鱼类先发病,另一部分养
项目成本管理是公司发展过程中一项重要内容,与公司效益密切相关。目前光伏行业遇到一些发展瓶颈,而项目成本管理的研究有利于加强光伏行业的竞争力,对光伏行业发展具有重要意义。本文围绕ZH公司光伏项目成本管理优化展开论述。首先介绍本文的选题背景及意义、研究内容及方法,通过提出问题-分析问题-解决问题的思路展开论述,找出ZH公司项目成本管理优化的方案。第二,介绍了目前国内外关于本话题的研究现状,同时介绍了光
介绍一种快速催眠治疗仪的性能,原理及临床实验结果,它输出相似于睡眠脑电波变化规律的6~14Hz扫频电流,诱导睡眠,调节中枢神经系统的功能,治疗失眠症疗效快,无副作用。