大数据时代知识图谱分析

来源 :理论与创新 | 被引量 : 0次 | 上传用户:aifeideyuo0O
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘  要】大数据技术的发展,催生了Google以语义网和领域本体为其关键技术的大规模语义网络知识库——知识图谱(Knowledge Graph)的诞生和发展,不但在计算机科学领域发挥重大作用,且日益应用到其他领域。同时,在图书情报领域基于引文分析可视化、知识地图和知识网络等研究产生的科学知识图谱(Mapping Knowledge Domain)也在近二十年间得到了长足的发展。随着研究领域的融合,有必要分析两者的研究内涵,厘清两者的关系,在知识管理方面优势互补,发挥更大的作用。
  【关键词】科学知识图谱; Google知识图谱; 语义网; 大数据
  引言
  就中文字面而言,知识图谱的研究既有在图书情报领域广泛使用的科学知识图谱,又有在计算机科学领域的Google知识图谱。虽然两者在发展过程中都简称为知识图谱,但其英文内涵、使用技术及应用都有本质的不同。
  科学知识图谱是在图书情报领域基于引文分析可视化、知识地图和知识网络等研究产生的,采用可视化的图谱,形象地展示所研究学科的框架、历史、现状和未来。
  Google知识图谱是在计算机科学领域,人工智能的深度学习技术赋能传统语义网(Semantic Web)的研究,通过构建本体(Ontology)建构大规模语义网络知识库,并对相关信息进行可视化研究,是大数据时代知识管理的必然产物。
  1.科学知识图谱概述
  科学知识图谱通过文献分析及可视化技术,绘制文献计量图(Bibliometric mapping)及文献地图(Literature mapping),以科学地图(Science mapping)表现形式,紧扣英文Mapping地图和向导的内涵,特别易于展现学科的结构、历史沿革和发展趋势、以及研究前沿等内容。
  1.1基本概念
  从知识管理的视角而言,科学知识图谱是以学科文献为研究对象,用“图”(可视化图形)和“谱”(结构化的谱系)的方式展示学科的发展与结构。
  1.2知识可视化
  知识有语言、文字、图像等多种表达形式,但人类对视觉图形则有更强的理解和识记能力,百闻不如一见、一图胜万言。在知识学习方面,广泛使用概念图、思维导图等图形工具展现概念、设计及关系等。
  1.3科学知识图谱
  科学知识图谱以文献分析的引文分析和共引分析构建学科的知识基础,通过建立数学模型和网络结构,并绘制可视化图形,以形象化地显示学科结构、热点、历史与趋势。
  1.4知识管理及使用流程
  样本数据获取。主要数据来源:Web of Science;科学文献数据:SCI, SSCI;国际会议文献数据:CPCI;其他国际文献数据库:Scopus,Science Direct
  国内数据库:CNKI、CSSCI、CSCD、万方等。
  网络数据源:Google Scholar、arXiv。
  (2)样本数据清洗。样本数据的质量决定了分析的质量。为此,需要对文献数据库采集的数据进行清洗预处理操作。包括对数据分段,修正原始数据的明显错误,以及进行去掉重复数据的处理。
  (3)选择知识单元。选择知识单元是进行知识处理的最基本工作。首先选择话题(Topic):包括题名(Title)、关键词、【摘  要】、作者等,此外资源类型、学科和研究方向等多种内容。
  (4)构建知识单元关系。通过引文分析理论与方法,采用引文网络的共引分析、贡献分析、耦合分析等构建知识单元之间的关系。
  (5)数据标准化。通过正交化、零值偏移化等方法,对知识单元的数据进行标准化。
  (6)简化分析。主要使用因子分析,使用主成分分析、多维尺度分析以及神经网络聚类算法等分析方法。
  (7)知识可视化。通过使用几何图、战略图、主题河图和地形图等多种可视化展示工具,系统地展示知识单元及其关系。
  (8)科学知识图谱解读。主要从网络分析,历时、空间和突变分析等多方面,对科学知识图谱进行分析和解读。
  2.Google知识图谱概述
  为提升搜索质量,Google从图(Graph)模型出发,对传统语义网重新赋能,构建了统一结构化的知识图谱,即大规模语义网络知识库,成为大数据智能时代的前沿。
  2.1本体
  本体描述了概念及之间的关系,是对客观世界存在及关系的抽象和建模。本体精确定义概念、关系及约束。通过形式化描述,便于人机交互和计算推理,同时也是领域内不同主体进行通讯的语义基础。
  本体 = 概念 + 实例 + 关系 + 【公理】
  目前通用领域的本体库产品,都是由数据驱动自动构建的,然后由人工审核进行修正。
  2.2资源描述框架RDF
  RDF(Resource Description Framework)是用于Web上数据交换的标准模型。RDF链接结构形成一个有向标记标签图,其中边表示由图节点表示的两个知识单元之间的关系。
  2.3知识图谱研究的关键技术
  大数据时代,如何从互联网上积累的海量数据中提取出知识,组织为可用的知识库,是知识图谱所要解决的主要问题。关键技术包括:
  (1)知识抽取。是指从各种结构化、半结构化和非结构化的海量数据中获取知识。包括实体提取、属性提取、实体关系提取。
  实体抽取:采用命名实体识别技术,将实体及其属性从文本中挖掘出来。
  实体关系提取:提取实体间的语义关联。在知识库的构建过程中,实体关系提取与实体提取处于同样重要的地位,也是知识库构建与补全的关键步骤之一。
  (2)知识融合。知识融合是将抽取到的知识,与知识库已有的知识相整合。特别要解决实体的歧义性,包括相同的实体具有不同的名字,或者相同的名字指向不同的实体。解决这一问题需要用到的技术,主要分基于概率模型和基于机器学习模型两类。
  (3)知识加工。经过知识抽取与知识融合后,知识库中就包含了一系列事实。但要形成可用的知识图谱,还需要对知识进行進一步的加工处理。这一过程主要有本体构建,和知识推理。
  3.结语
  大数据时代,Google知识图谱赋予语义网技术新的活力,且随着深度学习技术的发展,广泛地应用到各个学科领域。而科学知识图谱则以知识可视化为核心方法,经过近二十年的发展,支撑理论、体系方法和应用成果都取得明显的成效。当前,二者的交叉融合,互促发展,也为人工智能时代提供了创新的机会和研究领域。
  参考文献
  [1] 冯新翎,何胜,熊太纯,等.“科学知识图谱”与“Google知识图谱”比较分析---基于知识管理理论视角[J].情报杂志,2017,36(1):149-153.
  [2] 杨思洛,韩瑞珍.国外知识图谱的应用研究现状分析[J].情报资料工作,2013(06):15-20.
  基金项目: ① 广东省教育厅2019年度普通高校特色创新类项目(2019GKTSCX152)成果;②广东省教育厅2018年度广东省特色创新项目(2018GWTSCX055)成果;③ 广东省教育厅2018年省高职质量工程教改项目(GDJG2019309)成果。
  作者简介:耿江涛,副教授,博士生,广州涉外经济职业技术学院华文与国际教育学院院长。研究方向:大数据应用;
  *通讯作者:匡增意,副教授,广州涉外经济职业技术学院常务副校长。研究方向:高职教育管理。
  骆清霞,助教,广州涉外经济职业技术学院实践教学管理室。研究方向:实践教学管理。
其他文献
【摘 要】以智能制造为引领,数字化改造为核心,顺应时代趋势,设计规划滑动轴承轴瓦柔性生产线。改变传统落后的加工管理方式,提升效率和质量性能。  【关键词】智能制造;柔性生产线;数字化;滑动轴承;轴瓦  1.概述  目前国内滑动轴承行业普遍为单件小批量生产。采用传统的单机人工作业方式,劳动强度大,生产效率低,易出差错,工件转运不及时,产品信息追溯难等问题。我公司作为国内滑动轴承行业的领军企业,致力于
期刊
【摘 要】当前我国现代化程度越来越高,相应地,我国城市化发展呈现出迅猛的势头,这就要求更加严格的市政工程管理,并不断提高市政工程的质量,以此为我国城市化的发展提供有力的保障。但现阶段,我国某些城市仍存在市政施工方面的问题和缺陷,为不断提高市政工程质量,进行有效、优化管理,政府部门需要严格项目准入门槛,并合理利用各种措施对施工过程中的各个环节进行有力的监督监管,全面促进我国城市化朝着更好更快的方向发
期刊
【摘 要】随着互联网科技的高速发展,各种新兴技术开始走进人们的生活中,尤其是大数据处理技术,得到了广泛的应用,且具有重要的发展前景。大数据处理技术是当下使用较普遍的高新技术产品,在交通领域中的作用尤为突出。大数据技术在交通领域的应用,很大程度上提高了我国的交通运输效率,还为交通安全提供了强有力的保障。本文就大数据技术在智能交通中的应用展开论述,分析了智能交通大数据技术的优势,对于大数据技术做出了中
期刊
【摘 要】随着文物保护事业在我国的蓬勃发展,文物保护修复理念也在不断地改进和完善。本文阐述了经典文物保护修复理念的发展历程和基本内容,在此基础上,结合文物保护实践,以新疆塔什库尔干塔吉克自治县石头城、破碎陶器修复、石家庄市毗卢寺释迦殿和毗卢殿修缮工程为例,分别论述了“不改变文物原状”、“可识别原则”和“最小干预原则”三个基本原则在文物保护实践中的具体表现,最后,阐述了对经典文物保护修复理念的几点认
期刊
【摘 要】电气系统是电机驱动、加热器、电源照明和提供电能的设备中不可缺少的组成部分,电气工程总是很复杂,依赖于数千个元件和数千的电缆,是每一个工厂的核心部分,在工厂规模不断扩大的同时电气系统的就越来越复杂,大型加工厂依赖于自动化系统来进行高效和安全的运作,自动化系统通常以快速、可预测和可靠的方式响应成千上万的信号。  【关键词】电气自动化;电气工程;运用  引言  由于当前全球电气化程度的提升,电
期刊
【摘 要】在当今社会背景下,对公路高等级与高安全性的需求逐渐增加,所以,公路工程在测量的精度与速度方面的要求也不断提高。虽然原有测量技术可以对公路工程进行多项测量,然而,在较为特殊的地区,就很难完成测量工作。基于此,GPS技术逐渐出现在公路工程的测量中。  【关键词】GPS技术;公路工程测量;应用  1.GPS技术概述  GPS测量技术是集便捷操作、高精准度、全天候作业以及观测时间短等特点于一身的
期刊
【摘 要】在城市化建设日益推进的大背景下,城乡基础设施建设规模在不断扩大,道路桥梁工程建设力度持续增加,为人民群众的生产、生活提供了很大便利,推动着国家经济发展、综合国力的提升。但是,工程建设具有两面性特点,如道路桥梁设计施工不完善,会引发一系列安全事故,道路与桥梁连接位置的设计施工是工程建设的关键环节,直接影响着工程质量、通行安全,文章主要针对市政工程中道路与桥梁连接处设计施工进行了分析。  【
期刊
【摘 要】我国自改革开放以来,社会经济不断增长,国民生活水平不断提升,但在社会经济不断发展的背后,也令生态环境的平衡性付出了巨大的代价,城市污染愈发严重,引起了相关部门的高度重视,环境管理已经成为许多城市的经济发展过程中首要考虑的因素,目前,城市污水的控制与治理作为环保系统中的重点对象,根据现阶段绝大部分城市的污水处理现状,不难看出目前还面临着许多困难,文章首先简单地介绍了城市污水处理现状,并根据
期刊
【摘 要】近年來我国社会行业的不断发展,电气工程项目在我国各行各业都得到了较为广泛的用。在电气工程领域应用智能化技术,能够替代人工作业,降低劳动强度和危险,电气工程自动化是目前发展的主要方向,加入智能技术,能够提高电气工程及其自动化的作用效果,提高工程质量和安全。本文就基于电气工程自动化的智能化技术展开探讨。  【关键词】电气工程;自动化;智能化技术  引言  在全球经济一体化背景下,各国间的不同
期刊
【摘 要】随着我国经济的飞速发展,水污染情况也越发严重,这种严峻的局面已经被推向了高点,迫使我们不得不把防污治污、节水问题放在首位。出现这种局面,与企业和公民环保意识的薄弱有绝对的联系,水资源保护作为环境保护的重要内容之一,是应当被我们重视的。基于此,本文主要探讨了环境保护中水污染的治理策略。  【关键词】环境保护;水污染;治理策略  引言  污染越来越严重,这使得我们可用水越来越少,然而此刻人们
期刊