基于文本的农作物病虫害关系抽取技术研究

来源 :湖南农业大学 | 被引量 : 0次 | 上传用户:sduheaven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱由大量相互连接的实体和它们的属性构成,2012年由谷歌公司用于提高其搜索引擎的精确度,之后被用于文本语义理解、问答和对话等应用。农业知识图谱是实现农业知识问答和对话的基础,对提供准确、高效的农业信息服务具有十分重要的意义。《中国农业科学叙词表》(简称农表)含有农业领域几乎所有的词条以及它们之间用、代、属、分、参等关系,可以快速构建农业知识图谱的框架和雏形。然而,基于农表的农业知识图谱缺乏农作物、病虫害及防治方法等实体属性及之间的关系,这样的知识图谱还十分的不完整。向基于农表的农业知识图谱添加农作物、病虫害等实体的属性以及它们之间的三元组关系是构建农业知识图谱一项紧迫的任务,具有十分重要的意义。论文针对从大量无结构文本中自动抽取农作物、病虫害等实体之间三元组关系的问题,构建模型训练数据集,设计实体表示特征向量,开发实体关系抽取模型。具体研究工作如下:1.构建了农作物病虫害关系抽取模型训练数据集。通过Scrapy爬虫以病害和虫害叙词为关键字在百度百科进行文本爬取。搭建Doccano文本标注平台对文本中农作物、虫害、病害三类实体进行标注形成实体关系数据集。对数据集进行数据增强和加入负例样本后,现包含农作物病虫害关系抽取数据2530条。其中病害关系数据764条、虫害数据关系1165条、实体间未存在关系数据601条,涉及农作物实体384种、病害实体555种、虫害实体242种。2.提出了农作物、病害和虫害实体的Word2Vec向量表示方法。提取了数据集中实体对基于词向量的文本表示类特征、文本词性等实体类特征和文本相似度特征。使用支持向量机模型对三类特征进行训练发现,使用Word2Vec对实体进行向量化表示效果最好,其F1值比同类文本表示特征TD-IDF高了16.28%。3.提出了基于支持向量机的实体关系分类模型。定义支持向量机的关系分类模型,通过与三种常用的分类模型K最近邻、决策树、逻辑回归对数据集进行训练对比发现:在农作物病虫害关系抽取任务中,支持向量机模型的表现最佳,四项模型评估指标均远高于其他三种模型,其F1值达到了96.73%。
其他文献
<正> 近年来,时间生物学(chronobiology)的蓬勃发展,揭示了生命活动的时间属性,正引起现代医学时空观和理论体系的深刻变革,并在我国中医界激起了空前强烈的共鸣。在关系到如何认识生命本质的重大问题上,历来强调“因时制宜”的中医,和时间生物学找到了共同点。正因为如此,中医的有关理论和丰富经验,日益受到国内外学者的重视。发掘发扬
期刊
N-羟乙酰神经氨酸(N-Glycolylneuraminic acid,Neu5Gc)是唾液酸的主要类型之一,以结合态和游离态两种形式存在。据报道,Neu5Gc在人体的富集可导致异种唾液酸炎的发生,增加患心血管疾病、癌症等疾病的风险。本文以猪颌下腺黏蛋白(Porcine submandibular gland mucin,PSM)为原料,探究美拉德反应和高压脉冲电场(Pulsed Electric
学位
本文从培养学生物理学科核心素养的角度,以"电容器电容"一节课文讲解为例,就如何进行课堂教学设计阐述了分三步的观点,即确定各单元的教学目标、深入考虑怎样达到这一教学目标、考虑如何巩固教学目标,有助于纠正在课堂上仅以知识线索展开,偏重于习题教学的行为,以达到切实培养学生物理学科核心素养之目的。
期刊
茶是我国消费最多的饮品之一,深受人民群众的欢迎。随着气候变化和茶树病害耐药性增强,茶树病害已成为茶叶产出最大威胁之一。因此,准确、快速的对茶树病害进行识别并提出治疗措施是非常必要的。以往在茶叶的生产实践过程中,一般是通过茶农的肉眼和经验识别,但这种方式有其局限性,一旦识别不准确,将贻误处理病害的最佳时机,从而导致产量的减少,造成经济损失。本研究采集湖南地区常见的四种茶树病害图像,预处理后建立茶树病
学位
水资源是人类生存必需的重要资源,对水资源未来发展的精准判断是做好水资源管理和环境质量监测的重要前提。其中水文预报及其径流变化趋势预测是防汛工作的重要依据。然而,径流数据作为时间序列,自然条件和人类活动对其本身有重大影响,且无法用线性关系来描述,是一个高离散性的非线性混沌系统。因此,如何高效准确的预测径流量,一直是水文研究领域的重难点。与传统分布式水文模型相比,利用长短期神经网络建立的降雨量及径流预
学位
水稻作为重要的粮食作物,也是我国大部分人的主食。水稻浸种是水稻种植过程中的重要环节。目前我国大部分农户仍依据经验并采用传统的水稻浸种方法完成水稻浸种,但是由于人工的各种不确定性,对浸种温度、氧气等环境因素难以掌握以及处理不及时而产生的烧芽、烂芽等情况时有发生,从而降低水稻种子的萌发率,使水稻产量降低。随着物联网、云技术的日益发展,水稻种植技术不能只靠过去的经验,而应该将水稻种植经验与现代科学技术相
学位
当今农业信息化的态势愈演愈烈,而构建农业知识图谱是提高农业信息利用率的一个高效模式。为了整合苎麻种质资源信息,本文利用Python开发工具结合Neo4j图数据库构建了结构清晰、关联性强的苎麻种质资源知识图谱,并搭建了相关的信息查询平台,主要内容如下:(1)构建苎麻种质资源知识图谱。首先,以《中国苎麻品种志》与《中国麻类作物种质资源及其主要性状》为基础,获取数据并进行规范化处理,再借助Python开
学位
基于模型的武器系统仿真作为一种新型的武器设计和研发方法,涉及武器系统的设计、研制、生产和评估的全生命周期,是保证防空高炮武器系统设计全过程有效管理的重要基础。目前,国内防空高炮武器系统的设计实现还未形成以总体仿真指导方案论证、以数据模型驱动指标制定,研制周期过长且容错率较低,难以适应新时代装备设计制造需求。在深入研究防空高炮武器各分系统模块原理的基础上,基于模型系统工程设计思想,设计了防空高炮武器
期刊
随着生态的修复,久违的鸟叫蛙鸣开始逐步回归。农田内出现了丰富多样的保护动物,如稻田常见麻雀、白鹭,他们的出现意味着生态的好转,但是他们在农田内的活动也影响了收成。除了稻农,果农、蟹农、虾农也深受害鸟的侵扰,导致收成达不到预期水平。利用好信息技术,在不伤害保护动物的前提下,设法保护农民的利益,成了解决上述问题的关键。然而,在农田内开展农业信息化项目,主要面临着:1.在基础网络设施缺失下对设备间数据互
学位
近年来,银行业经营环境发生深刻变化,在风险加剧、利差收窄、客户需求升级、金融科技公司跨界渗透等背景下,加快经营转型成为商业银行竞争制胜的必由之路。而交易银行业务因其具有高频交易、收益稳定、客户黏性强等特点,受到越来越多的青睐,已成为现代商业银行推动转型发展,应对新市场、新监管、新竞争的最有效手段之一。
期刊