面向领域文本知识实体识别及关系抽取的关键技术研究

来源 :河北科技大学 | 被引量 : 10次 | 上传用户:Lavenderws
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着大量知识的产生,知识图谱正在发挥着越来越重要的作用,其中,知识库就是构建知识图谱的关键,然而这些知识库往往缺乏一定的领域通用性,不能满足特定领域的知识图谱构建。对于一个特定领域的知识图谱,领域实体以及实体关系的数量是相当大的,如果单纯靠人工统计构建,费时费力。而且,特定领域知识数据的来源并非都是结构化或半结构化文本,大多数以非结构化文本的形式存在,这就增加了领域知识获取的难度。因此,自动构建面向特定领域的知识库成为研究的重点。特定领域知识实体及实体间关系的获取是构建知识库和知识图谱的前提。本文主要针对知识实体识别和实体关系抽取进行相关工作的研究。具体研究内容有以下几方面:1)采用条件随机场(CRF)模型实现领域文本知识实体抽取工作。在建立CRF识别模型的过程中,引入词法分析特征、句法分析特征。为了能更好地提高抽取效果,引入语义依存特征,实验效果明显。2)提出了一种混合词法、混合句法的实体上下位关系抽取的方法。通过对语料的分析,选取某一种模式的句子作为研究对象,采用上下位实体分离机制,分别制定相应的词法规则库和句法规则库,进行上下位实体概念的抽取。3)提出了一种基于词向量的半监督领域实体关系抽取方法。根据依存句法分析,抽取具有主谓宾关系的动词框架作为种子模板,使用Bootstrapping算法完成实体三元组的抽取和扩充,采用基于词向量的相似度计算方法,抽取实体概念满足一定相似度的词,完成实体关系的抽取。实验证明,本文提出的方法是有效的。基于条件随机场的知识实体抽取方法的准确率能达到90%左右;旅游领域文本的上下位关系抽取方法在一定程度上可以很好地完成上下位实体概念对的获取;通过基于word2vec方法对语料的训练,完成实体概念相似度地计算。最后,对本文存在的不足及下一步的工作研究进行了说明。
其他文献
延胡索是常用传统中药之一,主要化学成分为原小檗碱类和阿朴啡类生物碱。该文概述延胡索所含生物碱成分的研究,分析其结构类型及新的定性、定量方法;分析其生物转化、吸收、
目前图片资源丰富,领域用户想要找到合适的图片资源的难度也明显提高。传统的图片库无法体现出图片之间的内在语义关联,而图片知识库可以根据用户不同的选择展示出符合用户需
在现场实测和实验室物理模拟基础上确定了10个影响软弱夹层顶板巷道安全性的因素.通过层次分析法对各因素进行权重评判,结果表明软弱夹层层位、受水影响程度等是影响该类巷道
通过对治疗崩漏的遣方用药、所组方剂如清海丸、固气汤、固本止崩汤、引精止血汤、加减当归补血汤、逐瘀止血汤、平肝开郁止血汤等,所用药如人参、黄芪、白术、茯苓、山药、
万维网使用户可以方便地访问各种服务,如电子商务,社交网络,网络借贷和在线工作平台。个性化的推荐系统对于消费者和供应商是必要的,并且随着新产品的不断推出及消费者行为的
物联网技术的发展,为智能农业的实现提供了有力的支撑。在智能农业中,应用各种传感器对农业棚室环境进行有效的监测和控制,以技术手段构建出有利于农作物生长的最优生长环境,
随着人类生活水平的提高,机动车使用量逐年增加,伴随而来的是各类交通事故的发生,安全驾驶已成为社会关注的问题之一,其中,因疲劳驾驶而导致的交通事故占很大比例,因此,研究
随着商业发展速度的加快,城市大中型商业网点建设成为当今社会商业规划的重要部分。地理信息系统(GIS)在信息化社会的发展中,逐渐受到重视,成为近年的热门学科,它在地图要素
本文运用景观生态学原理对我国海岛旅游的多元化发展进行了探讨。重点对海岛生态游、海岛高端旅游、无人岛旅游等新兴海岛旅游开发做了论述。提出在坚持对海岛"先保护,后开发