论文部分内容阅读
制造业作为国民经济的主体,是立国之本、兴国之器、强国之基。国内制造业按国家标准分为31个大类、191个中类和525个小类,领域层次繁多且概念结构复杂。随着“中国制造2025”计划的推进,大量领域信息迫切需要有效的组织方法。知识图谱作为一种大规模语义网,可以将制造业领域信息系统地进行表示和组织。因此,本文对制造业领域知识图谱构建各环节进行研究并完成知识图谱的构建和初步应用。本文从以下四个方面展开研究,主要研究内容如下:(1)针对知识图谱概念层的构建,本文在领域专家指导下进行相关概念和术语的梳理,通过建立概念分层结构改进原斯坦福大学提出的本体构建七步法,解决了其无法准确描述复杂概念的问题。(2)针对知识图谱数据层的获取,本文使用基于Heritrix爬虫框架获取网络资源,通过BKDRHash爬虫队列生成算法实现多线程的网络信息获取。在此基础上,针对非结构化文本数据中实体信息的获取,本文使用条件随机场模型进行实体识别,通过融合领域实体名称特征提升抽取准确率;针对非结构化文本数据中实体关系信息的获取,本文提出一种基于长短期记忆网络的实体关系抽取方法,解决了传统方法络在实体关系抽取中的长距离依赖问题并引入注意力机制提升准确率。(3)针对大规模知识图谱数据的存储和查询,本文使用了基于RDF图到Neo4j图转换算法的RDF数据存储方案,有效减少了存储空间占用。在此基础上,本文提出了基于SPARQL语句与Cypher语句转换算法的图查询方法,与传统方法相比显著提高了知识图谱的查询性能,为知识图谱在大规模数据中的应用奠定了基础。(4)针对制造业领域知识图谱的初步应用,本文设计并开发了基于Web的制造业领域设备隐患上报系统。本系统使用Spring Boot结合Neo4j实现Restful风格API,使用vue.js实现前端组件封装。通过知识图谱向用户提供具有实时补全和实时更正功能的录入控件,解决了人工录入描述文本内容的不规范和不准确的问题,在一定程度上提升了隐患排查的工作效率。