论文部分内容阅读
自2012年谷歌提出知识图谱概念以来,众多学者不断探索跨领域复杂数据的知识图谱的表示方法。知识图谱是应用驱动的知识表示形式,相对于传统表示方法更适合表示结构复杂且关系繁杂的领域知识。目前,针对农业领域的知识表示方法主要采用词汇表、RDF以及本体等方式,随着知识图谱技术的发展,产生了一些农业领域知识图谱的研究成果,然而,很多研究成果,尤其是水稻领域的知识表示主要集中在概念层结构定义方面。本研究以知识表示模式为基础,面向农业领域,结合宁夏水稻产业的应用需求,聚焦于宁夏水稻数据的知识图谱表示方法研究。从水稻数据的获取与处理入手,开发爬虫程序获取Web端及公开数据集和农业语义词典上的水稻数据,综合应用各类自然语言处理技术完成数据预处理;调用D2R将结构化数据转换为RDF模式;针对半结构化和非结构化数据,借助语义模板和正则表达式对实体及其属性值进行提取,采用基于模式匹配的方法实现非分类关系的抽取;将抽取出的多个RDF导入Protégé中,对本体进行融合;在水稻专家的参与及指导下,对水稻知识图谱进行构建与完善。本文的研究内容主要包括:(1)数据获取主要从水稻相关机构数据中心、农业书籍及Web端数据三个方面展开,利用scrapy爬虫框架、PDF电子解析工具等各类技术方法对水稻领域数据进行针对性获取。调用Python中的Pandas、Numpy工具包及LTP工具完成对水稻领域数据的去噪、去冗、清洗、分词、词性标注和依存句法分析等数据预处理过程。(2)针对不同数据结构水稻领域数据进行差异性知识抽取。结构化数据使用D2R工具转为RDF格式;半结构和非结构的数据借助农业语义词典构建模板,通过定义规则方式获取实体及属性值,利用模式匹配方法进行非分类关系的抽取。(3)借助知识融合与知识推理相关技术对水稻领域知识库进行合并及补全。将知识抽取后产生的多个RDF导入Protégé中,借助Refactor选项中的Merge ontogies,利用本体融合机制对多个领域本体进行融合,最后形成完整的宁夏水稻知识图谱。在此基础上编写SWRL规则,在领域专家指导下完成知识推理与补全。为了评价文中所构建水稻知识图谱的可用性和知识图谱构建方法的有效性,本文设计实现了一个基于水稻知识图谱的查询平台对其进行了实际应用场景下的验证。