面向农业大数据的关系抽取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gbnew
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取任务作为自然语言处理领域一项重要的研究内容,目的是判断文本中实体之间的语义关系,被广泛应用于知识图谱、智能问答等领域中。传统的有监督关系抽取方法需要使用带有标签的数据对模型进行训练,而数据中的标签需要人来手动进行标注,这无疑会消耗大量的人力资源。因此,远程监督方法受到了大量学者的关注。远程监督不需要人工对数据集进行标注,它依赖于现有的知识库,通过远程知识库对文本进行自动标注。但远程监督自动标注的数据由于过硬的假设条件,会出现大量的错误标注数据,使得远程监督获得的数据中存在大量噪声。训练集中的噪声会影响模型对样本的特征学习,测试集中的噪声会影响模型性能的评估。另一方面,知识库中知识的缺失会导致数据中存在大量假负例的情况,影响模型性能。我国是一个农业大国,农业是国民经济的命脉,与社会的进步与发展密不可分。但目前农业缺乏健全、规范的农业知识体系提供有效支持,因此构建一个统一的农业领域的知识图谱是是保障我国农业体系稳定,促进可持续发展的关键任务。基于此,本文面向农业领域大数据,对远程监督关系抽取方法进行研究,本文的具体研究内容如下:1.针对目前农业领域的数据不足问题,本文通过人工标注的方式,手动标注了一批农业数据集,并构建了一个小型的农业知识库,以支持对农业领域关系抽取任务的研究,同时使用人工标注的数据构建测试集来对远程监督关系抽取模型进行评估,避免远程监督的噪声数据影响模型的正确评估。2.针对远程监督的数据噪声问题,本文设计了一个远程监督去噪模型,通过构造伪噪声数据对噪声数据和正确数据的特征进行学习,模型将相同实体对的原始样本映射到多维高斯分布上,将伪噪声样本映射到高斯混合分布上,通过拉近分布的距离将噪声数据从原始样本中鉴别出来。通过这种方式对噪声数据进行过滤。与之前研究不同的是,本文的去噪模型独立于关系抽取任务,可以与任何关系抽取模型配合使用。3.针对知识库中知识缺失的问题,本文提出了多知识库融合的远程监督关系抽取方法,设计了基于最大公共子图的多知识库融合算法,通过知识库融合弥补知识库知识缺失的问题,为了解决知识库融合时的知识冲突问题,本文结合知识库的置信程度,将知识库中实体对的关系赋权,在融合后的知识库中保留各个知识库的内容,通过权重来表示知识的准确程度,在远程监督数据自动标注时保留了知识库中的权重,并设计了对应的关系抽取模型,使用带权重的数据对模型进行训练,并使用人工标注的无噪声的数据集对整个流程进行评估。
其他文献
J凹陷二叠系L组非常规油气资源丰富,分布范围广,纵向发育多套有利层,叠加厚度大,凹陷东区目前已经实现开发,西区也具备良好的效益勘探前景。但J凹陷西区L组细粒沉积成因及分布规律不明朗,储层主控因素、分类评价及分布规律不清,这是当下急需解决的关键问题。本文依据岩心、测井、地震及室内实验等资料,以高分辨率层序地层学、储层地质学等理论为指导,将J凹陷西区L组划分为1个长期旋回,4个中期旋回,18个短期旋回
学位
随着手机等便携拍摄设备的普及,越来越多的人愿意选择自行拍摄照片并进行图像编辑,这其中就涉及到了一项重要的计算机视觉技术图像修复。本文主要对使用深度学习中的注意力机制方法进行图像修复进行了深入的研究。现有的图像修复方法在一些复杂大型孔洞上仍然存在填充结果不合理颜色模糊差异等问题。除此之外,现在手机的像素也变得越来越高,人们对于现有的图像修复方法达到的效果逐渐不满意。图像修复任务在现实生活中应用最广泛
学位
声学场景分类(Acoustic Scene Classification,ASC)是一项对特定声学场景进行识别与分类的技术,其广泛应用于智慧城市、自动驾驶、安全监控等多个领域。近年来,越来越多的研究人员开始探索ASC领域,并提出了许多有效的模型,其中卷积神经网络(Convolutional Neural Network,CNN)凭借其强大的表达能力与突出的分类性能,成为本领域当前的主流方法之一。在
学位
学位
断裂在油气成藏与分布中起到了非常重要的作用。南堡4号构造变形复杂,大量的油气藏都围绕断裂分布。根据区域资料和地震资料的构造解释成果,从断裂发育特征、断裂形成与活动期次等方面对4号构造带进行分析,划分了断裂系统,通过断裂系统与源储的时空配置关系,划分油源断裂,结合区域油水分布规律,从油源断裂、断-盖配置、交叉断层、断隆配置等方面分析了断裂对油气输导的控制作用,研究表明:南堡凹陷垂向上可以划分出断陷构
学位
随着信息化技术的不断发展,中文文本数量呈爆炸式增长的趋势。与文本数量一同增长的是文本当中的错字数量。文本中的错别字可能会带来不良的社会影响与经济影响,这体现在众多行业当中,例如教育行业、司法行业、新闻行业等等。在计算机技术得到发展之前,中文文本校对几乎完全依赖人工手动校对。人工手动校对的方式不仅耗时耗力,正确率也得不到保证。特别是当文本数量大到一定程度时,人工校对几乎变成了一件不可能的事情。因此,
学位
查询优化器是数据库中的重要组件,负责为用户输入的查询寻找高效的执行计划。数据库中通常使用基于代价的查询优化器,由基数估计、代价模型和计划枚举组成。基数估计给出中间操作的元组数目估计,代价模型使用这个估计建立查询的执行代价,计划枚举枚举出代价最小的计划。由于基数估计和代价模型并不准确,优化器有可能得到较差的计划。基数估计和代价模型也是学术界最受关注的两个问题。已有工作使用机器学习模型来试图解决。但仍
学位
探讨图画书叙事与书籍形态设计之间的内在关联,凸显纸本图画书区别于电子书籍的媒介优势。基于故事类图画书的叙事特色,探讨书籍外部造型、书芯、装订、材质等书籍形态设计要素与图画书叙事的主题形象、情节、结构、细节等的内在关系,进而通过书籍形态设计提升图画书的叙事表达。得到基于叙事的纸本图画书形态设计思路与方法。该方法能够发挥纸本图画书的媒介优势,提升叙事表达与效果,深化作品主题,为数字媒介冲击下的纸质图画
期刊
作文写作是语文教学中不可或缺的重要组成部分,写作能力是学生语文能力的综合体现。相比于通用领域的文本生成而言,中学生议论文话题范围相对更小、格式更加明确,对中学生议论文进行建模并研究相应文本生成方法,可以综合考察当前模型的语义理解能力,并为其他文本生成方法提供借鉴。本文研究如何在给定题目以及首尾段关键词后生成完整的中学生议论文。受限于训练集规模,直接进行长文本生成可能会导致方法性能不佳,因此将其拆分
学位
儿童绘本一直以来都被认为是最适合儿童阅读的书籍。儿童绘本有别于其他类型的图书,其多以色彩鲜明的绘画为主,并配有少量的文字说明,借助图文的视觉和美学效果来激发孩子们的空间想象。随着人工智能的飞速发展,儿童绘本在创作和设计形式上发生了深刻的变革。智能化语音功能能够帮助儿童更为高效地阅读,多彩的人物画面、故事情节也能全方位提升儿童的感官体验。基于此,本文详细分析了人工智能背景下儿童绘本的设计趋势以及设计
期刊