论文部分内容阅读
近年来,数字人文在中国学界方兴未艾。数字人文对知识生产方式的改变,好比在学术圈这个相对平静的湖水中投进一颗石子,泛起的涟漪会波及整个学术领域[1]。2017年,中共中央办公厅、国务院办公厅印发的《国家“十三五”时期文化发展改革规划纲要》指出:文化遗产保护工程需加快文物藏品数字化保藏,推进数字故宫、数字敦煌、数字丝绸之路和中国人民抗日战争数字博物馆建设[2]。在数字化浪潮中,人文活动在数字技术赋能下跨界融合,借助数字技术耕读人文知识,变革传统的人文研究范式,并赋予人文研究以新的活力。数字人文正在引领中国社会文化空间的数字化转型,身处数字环境的人们对历史档案文化的知识需求也愈加强烈。《全国档案事业发展“十三五”规划纲要》在有效推进档案资源体系建设过程中鼓励开展口述历史档案、国家记忆和城市(乡村)记忆工程、非物质文化遗产建档等工作。口述历史档案作为历史文化传承的重要载体与纽带,以记录时代变革、填补记录空缺、保护人类文化遗产等价值和功能受到国内外学者的高度关注。我国悠久的历史文化世代相传,随着时间的洗淘,诸多珍贵的文化遗产已经失传或濒临灭亡。1992年,联合国教科文组织启动世界记忆工程项目,旨在通过国际合作与应用数字技术抢救世界范围内正在逐渐老化、损毁、消失的文献记录。有关口述历史档案的研究最早可追溯至美国哥伦比亚大学口述历史研究室的建立。虽然从启动时间看,我国研究起点较美国晚了近30年,无论理论基础还是实践进展都缺少资源深度开发和知识挖掘,尚处于起步成长阶段。但作为中华文化的守护者和传承者,我国拥有相当丰富且数量庞大的人文资源亟待挖掘。在数字人文的大背景下,如何借助数字人文技术方法检索、利用浩瀚繁杂的口述历史档案资源,将其蕴含的丰富内部事实、数据和知识展现出来,实现口述历史档案资源知识发现具有迫切性和必要性。同时,如何对口述历史档案资源进行深度知识组织、知识关联、知识聚合与知识发现,为用户提供知识服务,也将成为当下及未来档案资源开发利用的研究重点。基于此,本文以口述历史档案资源为研究对象,通过对口述历史档案、知识发现的追本溯源,综合运用文献分析、专家访谈、实证研究等方法,结合口述历史档案资源特征与属性,架构数字人文视域下口述历史档案资源知识发现框架,探究数字人文视域下口述历史档案资源知识发现核心内容,构建口述历史档案资源本体与知识图谱并进行实例可视化展示,深入揭示口述历史档案资源知识元,将其蕴含的人、地、时、事等复杂内容关系予以揭示,辅助和支撑人文学者进行研究,为口述历史档案资源实践应用提供可操作性指导,实现口述历史档案资源多维知识发现。具体来说,核心内容包含4个部分。第3章数字人文视域下口述历史档案资源知识发现逻辑框架本章首先对口述历史档案资源知识发现需求进行分析,对口述历史档案资源知识发现目标进行概述,梳理口述历史档案资源知识发现流程及体系结构。然后,解析口述历史档案资源知识发现构成要素、功能要素、构成要素及功能要素关系,架构数字人文视域下口述历史档案资源知识发现框架。最后,对框架主要模块作用进行解构,包含知识组织的描述与揭示作用,知识关联的存储与链接作用,知识发现的多维挖掘作用。第4章口述历史档案资源本体构建口述历史档案资源纷繁浩杂,如何将零散杂乱的口述历史档案资源组织起来,就需要借助本体来实现。鉴于目前本领域尚未发现可复用的口述历史档案资源本体,故而需要自建本体,这也是本领域的创新之处所在。本章作为第五章的铺垫,通过构建口述历史档案资源本体呈现口述历史档案领域知识认可的概念及概念间的相互关系,从知识组织维度实现口述历史档案资源知识表示,并利用Protégé工具辅以实例可视化展示,验证了本文构建的口述历史档案资源本体具有良好的可操作性与实用性,为第五章口述历史档案资源知识图谱构建提供组织结构基础。第5章口述历史档案资源知识图谱构建本体只是从组织层面实现口述历史档案资源描述与揭示,而知识图谱是基于关联层面实现口述历史档案资源深度聚合。本章首先提出口述历史档案资源知识图谱框架设计构想,包含模式层和数据层,模式层既可以从口述历史档案资源本体解析、本体与图数据库的映射规则以及关系界定入手;也可以直接从口述历史档案资源数据源抽取所需要素。数据层包含信息抽取和知识融合两部分。然后介绍知识图谱存储和绘制工具。最后,基于第四章口述历史档案资源本体结构,引入实验数据源,采用目前主流的Neo4j图数据库构建口述历史档案资源知识图谱进行实例可视化展示,从知识关联维度实现口述历史档案资源深层聚合,构筑口述历史档案资源知识网系,实现知识关联,为第六章口述历史档案资源多维知识发现奠定关系主线。第6章口述历史档案资源多维知识发现本章在第五章口述历史档案资源知识图谱实例展示的基础上,基于知识图谱洞悉口述历史档案资源深层关系,从多维视角深入挖掘口述历史档案资源潜藏的丰富内部事实。具体包含:基于项目整体概况的知识发现、基于事件主题关系的知识发现、基于社会网络关系的知识发现以及基于时空网络关系的知识发现。既可以细致展现出口述历史档案资源间人、地、时、事之间的知识关联,又可以探求涉及同一主题或具有相关关系的多个口述历史档案资源之间的隐性关系,方便领域学者进行后续研究,以佐证本研究具有现实指导意义。综上所述,本研究在数字人文大背景下,将以本体和知识图谱为代表的数字人文技术方法“引介”口述历史档案研究,实现了口述历史档案资源领域本体和知识图谱构建新突破,同时借助实例可视化展示,将人、地、时、事等内容特征及其相互关系予以细粒度描述,从事件、时空以及社会网络关系等层面实现口述历史档案资源深层挖掘与多维知识发现,不仅丰富了多元学科理论与研究方法,而且还推进了口述历史档案资源实践创新。在“技术驱动+知识发现”的催化反应下,为口述历史档案资源深度开发提供了借鉴与可行指导,同时也对口述历史档案资源知识发现及可视化具体实施提供了可操作性框架参考,切实推动了口述历史档案资源知识组织、知识关联、知识发现与知识服务。