论文部分内容阅读
面对信息技术的快速发展,知识的获取、存储和传播方式有了很大变化,互联网已经成为人们获取、传播知识的主要途径。网络上的数据具有明显的多源异构性,充分利用这些知识存在一定困难。知识图谱技术是近年来兴起的一种知识管理技术,通过使用RDF三元组的形式来表达文本、表格中的信息,使用“节点-边”的图数据结构来存储,在完成大量信息整合的同时重点表达知识之间的关联。知识图谱目前已得到越来越多的应用,主要有通用知识图谱和领域知识图谱。人工智能技术的快速发展也让知识图谱的构建难度降低,知识图谱已成为诸多行业领域的研究热点。在林业专业知识图谱方面,相关研究和应用还比较少。林业信息化建设产生了大量的数据,利用这些数据开展林业知识图谱构建和应用研究,能进一步提高林业知识服务能力和水平,推动数字林业向智慧林业发展。油茶是中国主要的经济林树种,栽培历史悠久,分布区域广泛。作为科学研究热点,产出了相当数量的论文、专利等学术成果,具有很强的多源异构性,要高效充分利用这些知识有一定困难,同时油茶产业的高质量发展,迫切需要大数据和知识服务的支撑。论文以油茶为对象构建知识图谱,通过知识图谱技术来提高油茶知识的利用能力,增强油茶相关知识的发现、检索和服务能力,为科研工作者和油茶产业人员提供知识服务,促进油茶产业发展。论文从油茶种苗、培育、加工利用全产业链进行油茶相关知识的收集、分类和加工整理,得到了专家、机构、成果、标准、专利、论文、林木良种等不同知识维度、分类体系的数据,建成了包含7个一级概念、13个二级概念以及若干关系的油茶知识本体。油茶知识图谱的数据以RDF三元组的形式表示,其基本形式为:对象-属性-属性值,一个RDF三元组示例为:<油茶--上位词--山茶属>。以油茶知识本体作为基础来处理不同类型的数据。对结构化数据,通过设置人工过滤规则,建立相应的映射关系,完成结构化数据到知识图谱数据的转化。对非结构化的文本数据,通过构建概念词表完成实体识别任务、利用依存句法分析进行关系抽取,共得到知识图谱三元组数据24204条。构建的油茶知识图谱的实体、属性和关系等数据利用Neo4j图数据库进行存储,开发了基于B/S架构的油茶知识图谱应用系统,实现了智能搜索、知识关联、可视化展示和知识问答等功能。油茶知识图谱中有油茶良种相关特性以及原始培育地区、主栽培地等空间信息,以这些知识为支撑,作为地理信息的属性数据,构建了环境适宜性评价模型,结合知识图谱和空间分析方法进行知识挖掘,来模拟预测油茶优良品种在全国范围内的适宜栽植区域,利用油茶知识图谱进行辅助决策,为农民选择良种、科研人员进行良种推广种植提供了参考。论文的重点是油茶知识图谱构建技术和具体应用,油茶知识图谱应用系统已与林业信息门户网站相结合,面向行业用户提供油茶知识服务,提高了用户覆盖面和油茶知识服务能力。油茶知识图谱应用系统具有良好的可扩展性和应用前景,能够在油茶知识的基础上添加其他经济林乃至整个林业行业的相关知识,将提供高质量的知识服务,提升林业信息化的智能化水平,促进林业发展。