论文部分内容阅读
20世纪80年代,古村落开始受到人们的关注,但是直到20世纪90年代才受到重视,在这之前的文献都是考古方面。近些年来,随着国家对我国传统文化的保护意识的增强,古村落已经得到越来越多的学者关注,中国知网中有关古村落的文献数量也随着时间呈指数增长态势。因此,对古村落领域文献的探索具有重要的研究价值。共词分析方法是文献计量领域的经典分析方法,被广泛应用于领域的主题发现。现有的传统共词分析方法主要分为三个阶段:术语收集阶段、共现频率统计阶段以及聚类分析阶段,传统共词分析方法在以上三个阶段存在主观性过强、信息量不足,聚类不稳定、成员划分不合理、类团解释缺少语义分析等问题。因此,本文针对传统共词分析方法存在的缺陷提出了一种新的共词分析方法——GMAP共词分析方法。该方法首先使用g指数确定高频关键词的个数;其次,使用互信息概念对共现矩阵进行包容化处理;最后,使用AP算法进行聚类得出领域主题。为了动态追踪领域主题,本文提出了基于GMAP共词分析方法的主题演化框架,使用具有不对称性质的KL散度计算主题之间相似度,并利用ThemeRiver模型进行可视化,最终将主题演化结果直观地展示出来。本文首先通过文献调研研究出传统共词分析方法存在的缺陷,从每一个阶段着手进行改进,达到了自动化生成聚类中心以及合理对类团进行语义分析的目标,接着通过对古村落领域文献进行数值实验来验证本文提出的GMAP共词分析方法的有效性。另外,本文的主题演化框架是基于本文提出的GMAP共词分析方法,选择当前最优的可视化技术和与之匹配相似性度量方法,以达到追踪主题的变化的目标。为了验证本文提出的主题演化框架的实用性,本文将其应用到中国古村落领域文献的主题发现与追踪之中,并分别从宏观和微观层面对古村落领域的主题演化进行了深入分析。