论文部分内容阅读
科研主题演化及主题内容分析,是信息科学相关领域长期关注的问题。目前数量庞大的学术文献既为科研主题分析提出了挑战,也为学术文本挖掘工作提供了充足的资源。科研主题是动态演化的,在一个科研领域的发展过程中,新兴主题涌现,已经形成的主题越发活跃成熟或者逐渐老化衰退,各个主题的研究内容不断变化,单一主题发生分化,多个主题之间产生融合。理解科研主题的演化过程并对其进行深入的内容分析,可以帮助新入领域的研究者了解领域概况,促进领域专家之间进行领域内部和跨领域的知识交流,向科研基金管理机构和政策制定者提供科学创新的发展轨迹,帮助决策者跟进领域知识的流动情况。鉴于科研主题研究的重要性,以数据挖掘领域为代表的各学科均对其投入了很大的关注,相比之下,情报学领域对于科研主题演化的研究成果较少,对于演化动态和演化过程中主题结构变化的分析尤为欠缺。而在数据挖掘等计算机科学相关领域中,由于学科本身技术导向的特性,对于科研主题演化的考察比较注重演化模型的构建和优化,研究成果疏于探讨主题间的知识交流情况和主题在不同时期的发展状态,以及更进一步深入到词语层面的内容分析。目前以情报学和数据挖掘领域为代表的信息科学相关领域对科研主题演化分析的现状是,情报学领域缺少先进的技术方法对主题结构的动态演化过程和词语在主题中的分布变化进行识别和抽取,数据挖掘领域由于其技术导向的特征,缺乏对于科研主题深入的内容分析。基于上述认知,本文结合数据挖掘和机器学习等领域的主题建模和文本挖掘方法,以及情报学领域注重内容分析的优势,以信息检索领域的学术文献为例,对科研主题的演化过程及演化过程中各主题下词语的分布及语义变化进行考察。共计七个章节。第一章引言,主要介绍选题背景与研究意义,国内外研究现状,本研究的内容、方法及创新之处。第二章理论基础,包括科学范式的转变,贝叶斯网络和主题建模原理,以及词语语义和词语迁移概念的界定,为后文进行主题抽取,演化研究和词语在主题中的分布研究提供理论支撑。第三章科研主题的划分与确定。基于LDA主题模型对科研文献构成的文本数据集进行了主题抽取和分析。选取的研究样本为信息检索领域的研究论文,数据来源为Web of Science数据库,时间检索跨度为1956-2014,检索结果共计20359条文献数据。共计抽取五个主题,作为信息检索领域的重要主题进行后续的演化研究和词语分析。第四章对科研主题的演化过程进行分析,对信息检索领域五个重要主题的生长趋势和演化动态进行识别和考察。在生长趋势分析中,对LDA主题模型训练结果中的文档-主题概率分布按年分组进行聚合,从而得到每一年每个主题下的内容占当年文献总内容的比例,以表示各主题在对应年份的活跃程度。针对目前研究对主题活跃度的测量仍停留在对发表文献进行简单计数的基础上,本章的生长趋势分析结果较好地保留了一篇文档以不同比例包含多个主题的特性。在演化动态分析中,针对目前主题演化研究对主题分化融合,知识交流和不同时期的发展阶段分析的不足,对应上述三点展开了研究。整体语料被划分为六个时间窗口,每个时间窗口另外抽取存在于该时间段内的局域主题,第三章抽取的五个主题称为全局主题。全局主题内部和主题之间的知识交流情况,由局域主题之间的分化融合表示。通过计算主题之间词项概率分布的相似度,可以得到全局主题与局域主题之间的相关关系,以及相邻局域主题之间的分化融合情况。不同时期局域主题与全局主题的相关性,能够反映全局主题在这一阶段的发展状态。第五章在前面章节的基础上,将科研主题演化分析深入到词语层面,重点关注科研主题演化过程中的词语迁移现象。科研主题表达为具有语义功能的词语的集合,科研主题演化过程实质上是与词语相关的创新和应用的变化。从词语分析入手,是进一步理解科研主题演化过程的关键。本章首先阐述了词语迁移现象存在的普遍性,并对词语迁移的定义进行了表述,即:相同的词语出现在不同的主题当中。类比现实世界中普遍存在的迁移现象(如人类种群的地域性迁移),词语相当于人群,主题相当于不同的地域。并对词语迁移的类型,稳定性和词语在迁移过程中的语义变化进行了测量和分析。第六章对词语迁移活动存在的一般性规律进行了验证和分析。提出了词语迁移规律的三个假设,其一为相似性假设:具有相似上下文的词语具有相似的迁移方向;其二为多样性假设:语义多样性较强的词语具有较高的迁移程度;其三为凝聚性假设:主题中的重要词语具有较低的迁移程度。根据信息熵理论,本章首先对词语迁移程度进行了定量化表示,以方便后文对词语迁移规律的验证。相似性规律表示的是词语语义相似性与词语迁移方向之间的关系,基于word2vec词嵌入模型将词语表示为词向量,词语语义相似性由词向量之间的余弦相似度表示。多样性规律表示的是词语语义的多样性与词语迁移程度之间的关系,词语的多义性通过计算词向量在K最近邻网络中的局部聚类系数表示。凝聚性规律表示的是词语对于主题的重要性与词语迁移程度之间的关系,词语的重要性通过在主题中的tf-idf值的计算表达。第七章对全文研究进行总结与展望,包括研究结论,研究不足与展望。经过理论与实证分析,本文得到以下三个方面的结论:(1)信息检索领域五个重要主题的发展演化,总体上遵循从调整期到成熟期的发展阶段过渡过程。部分主题在发展成熟后,可能重新进入调整期,在经历新知识的引入和主题内容重组后,达到一个新的发展成熟期。由主题分化融合活动反映的主题知识交流,既在主题自身内部发生,也在主题之间形成。领域内率先发展成熟的主题在后续发展独立的主题的形成阶段会产生知识输出,相对地,后续发展独立的主题也会反馈本主题创新的技术和方法向其他主题形成知识流动。部分主题由于研究范畴在本领域的独特性和自身研究内容的凝聚性较高,与其他主题之间的知识交流较少,从而形成一条较为封闭的主题发展路径。(2)科研主题演化实质上是主题下具有语义功能的词语发生的变化。理解科研主题中的核心词语在不同时期发生的变化是对科研主题演化进行深入内容分析的关键。本文将科研主题演化过程中,相同词语在不同主题中出现的现象定义为词语迁移。词语迁移现象关注词语语义的变化,在科研主题演化的过程中,实际上对应的是与词语关联的创新和应用的变化。词语迁移活动可分为无迁移,双主题迁移和多主题迁移三种类型。当主题中的多个词语均表现出向其他主题迁移的趋势时,表示与这个主题相关的研究问题在本领域的热度下降,主题整体处于收缩和衰退的过程当中。在词语迁移的稳定性方面主要关注了收敛型迁移词语和发散型迁移词语。词语的发散式迁移过程反映的是词语语义由主题普遍性向主题特异性发展的过程,与之相对,词语的收敛式迁移通常反映与词语相联系的研究和应用在多个主题当中均获得了关注,成为领域的热点研究问题。(3)通过考察词语上下文相似性,语义多样性和在主题中的重要性与词语迁移方向和迁移程度的关系,本文提出关于词语迁移活动的三个一般性规律。其一为相似性规律:具有相似上下文的词语具有相似的迁移方向;其二为多样性规律:语义多样性较高的词语具有较高的迁移程度;其三为凝聚性规律:主题中的重要词语具有较低的迁移程度。研究表明,信息检索领域各主题下高概率词语的迁移活动验证了关于词语迁移的三个规律。相似性规律方面,上下文相似的词语主要包括近义词和共现词组两种类型,这类词语通常具有相似的迁移方向,但当多个词语互相之间经常共现时,这些词语之间的语义会相互影响,使得在迁移过程中形成不一致的方向。多样性规律与凝聚性规律存在一种相互制衡的关系。单纯考虑多样性规律时,词语的语义越单一,越容易稳定在一个主题中,此时将凝聚性规律也加入考虑,语义单一的词语可能对多个主题都很重要,或者说虽然这个词语总是与相同的上下文共同出现,但常常被多个主题同时使用,那么也会使得词语在多个主题中形成迁移。