论文部分内容阅读
农作物病虫害作为制约农业发展的重要因素,一直是人们关注的焦点。目前网络上涌现出大量和农作物病虫害有关数据,通过传统的搜索引擎,用户无法高效精准地获取到农作物病虫害相关信息,构建农作物病虫害智能问答等应用系统已经成为智慧农业发展趋势。由此本文开展农作物病虫害相关实体关系抽取研究,为构建农作物病虫害知识问答等提供理论基础和可行性依据。关系抽取作为自然语言处理的基本任务,对比传统实体关系抽取方法,本文采用了注意力机制与PCNN、CNN、RNN和BiRNN四种深度学习模型结合的方式,实现农作物病虫害领域内实体间关系抽取。本文具体工作如下:1.完成了实验数据采集和预处理。通过对爬虫技术的学习,利用基于Python的爬虫工具,以百度百科为实验数据来源,获取实验所需农作物病虫害相关数据。使用Jieba工具对获得文本数据完成分词,词性标注等处理,并使用Word2Vec工具完成词向量训练,生成后续研究所需数据集。2.实现了对农作物病虫害相关实体的识别和实体关系集的构建。采用了词典与CRF模型结合的方式,进行农作物病虫害相关实体识别。并在植保同学的协助下,确定实体对之间可能存在的关系,构建了农作物病虫害领域实体关系集,完成实体对的关系标注。3.开展了基于深度学习的实体关系抽取研究。针对传统关系抽取方法存在的不足,首先使用了 PCNN、CNN、RNN和BiRNN四种深度学习模型,进行农作物病虫害领域实体关系抽取研究。通过对实验结果的分析,在本文的实验环境和数据上,CNN在抽取的准确率略高于PCNN,效果最好。接着采用了基于词语级别的注意力机制与四种模型结合的方式进行实体关系抽取,实验结果表明,基于注意力机制的神经网络模型在实体关系抽取时,效果都有不同程度的提升,PCNN模型准确率提高了 2.62%,抽取效果更为理想。本文基于深度学习模型开展的农作物病虫害领域内实体之间关系抽取的研究,具有十分重要意义,对后期农作物病虫害知识问答系统构建都起到理论借鉴作用。