论文部分内容阅读
在中国,大豆的种植和生长过程中会受到多达30多种疾病和大约100种害虫的威胁,造成重大经济损失。大豆病虫害防治专业知识大多存在于专业书籍和科技论文等文献资源中,实际田间作业时,农民无法便利地获得最新的专业知识,信息利用效率低。如何利用计算机技术,辅助农民实时获取相关信息,成为日益突出的需求。针对上述信息鸿沟问题,本文提出用自然语言处理技术,自动从领域文献资源中提取专业知识,对其进行清洗、梳理、整合,构建领域知识图谱,并以此为基础,提供面向田间作业的知识检索服务。主要内容归纳如下:(1)信息来源筛选及标注数据集。针对领域数据集缺乏的问题,本文选择《大豆病虫害原色图谱》一书作为数据来源自建实体及关系数据集。参照前人研究和书中表述,将大豆相关实体之间的关系分为5大类,分别是为害部位、发病症状、防治手段、形态特征和其他,并参照面向开放领域的基准数据集的标注格式对本文自建数据集进行人工标注。(2)领域实体关系抽取方法研究。本研究分别以管道结构和联合学习结构为基础架构,实现了两种关系抽取模型,并以开放领域基准数据集和领域数据集为基础进行了对比分析、消融实验。以管道结构为基础,实现了基于CNN、PCNN、BERT的关系抽取模型。实验结果表明,在大豆病虫害领域文本上,BERT模型的效果优于CNN和PCNN,F1值达到0.9849。以联合学习结构为基础,对实体识别和关系识别任务统一建模,利用两个任务间的关联信息减少错误累积,实现了SPNet关系抽取模型。然而,领域知识中的数据稀疏特性严重影响了联合关系抽取模型的性能。针对数据稀疏问题,引入数据增强方法,有效提升了联合实体关系抽取模型的准确性。比较两类学习结构和模型,管道结构模型可用于构建初始知识图谱,能准确识别已标注实体间的实体关系,而联合学习结构可同时识别实体和关系,可用于拓展知识图谱,但需要注意数据稀疏性的负面影响。(3)领域知识图谱构建方法研究。在关系抽取任务基础上,使用Neo4j知识图谱构建工具搭建领域知识图谱,使用Cypher语言处理数据并搭建领域知识图谱,并搭建基于Web的知识图谱检索服务。本课题以大豆病虫害为样本领域,研究领域知识图谱的构建方法及关键问题。以深度学习为技术框架,在调研现有基准数据集、主流方法和模型的基础上,研究了面向领域文本的实体关系抽取和面向知识图谱的实体关系存储、表示和检索等知识图谱构建过程中的关键问题,实现了动态、个性化的大豆病虫害防治知识检索,强化理论知识和田间的衔接,高效助力实现精准农业。