论文部分内容阅读
知识网络能够实现知识的创造与传递,特别是对于领域知识网络,能反映出一个领域内部知识的流动与传播。但在传统知识网络研究中,大多以标题、摘要、关键词等显性和具有作者主观性的信息所构建,反映了从创作者角度传递出的知识信息,无法反映出受众角度所获得的真正信息。施引是受众在阅读原创作者的文献之后,所产生的主动的行为。在施引过程中所产生的引文则是作者根据其认可的学术理念和规范,对相关文献的阅读、筛选、取舍、利用的产物,是引用者自己认为“有用”的资料。因此,引文文本往往能够反映出从题目、摘要等显性标注信息中所难以得到的隐性信息,是施引文献和被引文献之间最为直接的联系。基于此,对引文文本进行研究,能够挖掘出在显性信息中难以发现的潜在知识,能充分体现出引用内容的价值和作用。在此背景下,本文以数字人文研究领域为对象,基于引文内容,提取引文文本关键词,构建数字人文研究领域的知识网络。本文将“Digital Humanities”作为主题字段在Web of science中进行检索,获得数字人文领域的研究文献,作为中心文献集,并导出文献被引记录,根据记录导出并下载施引(citing)文献,作为施引文献集。同时,在中心文献集中选取高被引中心文献,根据其参考文献信息,下载相关的参考文献,作为参考文献集。则构成参考文献集←中心文献集←施引文献集的引用关系流。在其中,根据施引文献与被引文献之间的引用关系,从施引文献原文中提取出对被引文献进行引用的文本,限制为引用标记附近的50个单词,定义为引文上下文文本。其后,通过LDA主题识别模型和词频权重的方法,提取出引文文本中的关键词。基于参考文献集、中心文献引用参考文献的引文文本集、中心文献集、施引文献引用中心文献的引文文本集和施引文献集,本文首先分别对各数据集中的关键词进行了分布分析,以及分别构建共现网络,进行关键词词间关系分析。在此基础上,对参考文献集、中心文献引用参考文献的引文文本集、中心文献集关键词共现共现网络进行合并,进行数字人文核心文献关键词的知识吸收分析;将中心文献集、施引文献引用中心文献的引文文本集和施引文献集关键词共现共现网络进行合并,进行数字人文核心文献关键词的知扩散分析。以被引文献的原关键词作为被引词,以引文文本中的关键词作为施引词,根据文献间的引用关系,转化为词之间的引用关系,构建了数字人文研究领域中的新型引用网络。即在中心文献集与施引文献集之间,以中心文献原关键词作为被引关键词,以施引文献引用文本中提取出的关键词作为施引关键词,构建引用网络;在高被引中心文献集与参考文献集之间,以中心文献引用文本中提取出的关键词作为施引关键词,以参考文献原有关键词作为被引关键词,构建引用网络,从多角度探索数字人文研究领域的知识传播与流动情况。本文构建出一种较新颖的知识网络,以从引文文本中提取出的关键词作为网络节点构建共现关系和引用关系网络,从显性信息深入到隐性信息,赋予了原有引证网络更丰富的信息,同时,有助于数字人文研究领域内学者了解数字人文领域的知识结构和知识流动情况,发现领域内一直被忽视的知识。