论文部分内容阅读
由于科学技术的快速发展、文献出版周期的大大缩短,文献成果目前呈现数量庞大、主题多样的特点,在这样情况下,如何快速获取当前领域的研究热点、把握研究趋势是摆在科研工作者及科研部门面前亟待解决的问题,也是数字图书馆需要解决的难题。数字图书馆作为知识经济实现的基础设施,是国民经济运行不可缺少的必要条件;同时作为社会的公共信息存储中心、信息中转站,数字图书馆为社会公众提供综合的信息服务,发挥着素质教育、文化保护与传播的作用。数字图书馆自上世纪90年代提出并付诸实施以来,经历了近20年的理论研究及其实践发展,现已进入相对成熟的阶段,对其学术成果进行主题分析,将有助于发现学术发展脉络、学术热点及学术发展趋势,有利于学者寻找新的研究切入点,也有助于延续和提升数字图书馆生命力与活力。LDA(Latent Dirichlet Allocation)作为一种经典有效的概率生成模型,包含文本-主题-词项三层贝叶斯结构,能挖掘出文本中的潜在语义信息,已在文本分类、信息检索、情感分析、话题挖掘等领域广泛应用,在科技文献主题发现与演化研究中的作用也日益凸显。同时,科技文献中的题目、摘要、关键词是一篇文献的重要组成部分,通常代表了作者对文章内容要点的浓缩和总结,在进行文献主题分析时能发挥巨大作用。遗憾的是,现有数字图书馆相关主题研究未能重视和利用这些元素。本文利用LDA模型对2007-2016近十年的国内数字图书馆研究论文进行内容挖掘,分析其主题结构,揭示热点主题及主题演化过程,最后结合实际背景对演化结果进行讨论,以期为数字图书馆的相关研究及工作开展提供参考与支持,进而促进数字图书馆的健康发展。具体内容如下:(1)总结现有的主题识别演化分析方法,从基本原理、研究现状、优缺点等方面对这些方法进行详细分析。对利用LDA进行建模的完整过程进行研究(其中包括:Gibbs参数估计方法、最优主题数确定方法、基于信息熵的主题过滤技术、热点主题选取方法、后离散主题演化方式以及主题演化度量方法等)。将其中关键问题进行提炼研究,在此基础上提出了一种基于主题强度聚类的主题趋势的识别分析方法。(2)选取国内数字图书馆2007-2016十年的期刊论文,引入时间因素,运用LDA对其进行主题演化分析,识别出数字图书馆研究的主题结构(用户研究、建设对策、评价研究、信息服务、教育与培训、知识管理、资源组织、资源共享、版权研究、移动图书馆、资源存储与安全、领域研究述评、应用技术研究、云计算下的数字图书馆),可以作为数字图书馆研究人员以及数字图书馆管理人员、建设人员的决策实施参考方案。(3)利用上述同样数据,通过热门主题选取方法发现,信息服务、发展对策是研究者们稳定且高度关注的研究主题,资源组织与建设、应用技术、版权问题是数字图书馆领域的稳定研究主题;引入时间因素,使用后离散主题演化方式进行主题演化分析,绘制出14个主题10年来的强度演化趋势曲线,利用基于强度聚类的主题趋势分析方法将14个主题演化趋势分为上升型、下降型、平稳型、曲折型,判断用户研究、移动图书馆是数字图书馆的新兴研究主题,其主题热度将在未来攀升。