论文部分内容阅读
近年来,随着科研工作者人数的迅速增长,学术文献数量与日俱增,这一现象使科研热点的发展趋势无法人为的跟踪和处理。研究科研热点的发展态势有利于科学研究者查找相关主题的材料;有利于学者们及时了解科研主题的发展状况;有利于企业科研投资决策和国家对科研工作的指导和鼓励。过去,一些科研学者通过简单的统计方式就关键词和文本中词频高的词来表示热点主题,然而这种方式不仅忽略了词之间的相似性,而且需要耗费大量的人力和时间成本。目前大部分科研热点问题的研究主体都是汉语文献,然而很多重要的科研成果都是以英文的方式呈现。为了更好的掌握并跟踪时下科研热点的发展状况,本论文针对SCI学术文献进行数据处理和分析:对数据进行清洗去噪、文本分词、去停用词、词根还原等工作;然后采用word2vec和LDA的主题模型分析技术对数据进行处理,提取科研热点主题及其主题词;最后将研究结果以可视化的方式呈现出来。本论文的主要研究工作如下:1)基于word2vec模型和LDA的主题模型分析实验数据。对LDA主题模型进行改进,引入word2vec词向量表示,将传统LDA模型的主题-词矩阵,变成主题-词向量矩阵,弥补了上下文语义信息缺失的不足,对文本数据进行相似度的度量。对主题最优数进行求解,将主题最优数问题转换为统计学问题,对主题最优数做了定量分析,采用F统计量对主题最优数进行计算。分别就主题强度、主题相似度和主题稳定性这三种形式度量主题的发展状态,通过困惑度指标对传统的LDA模型和本论文模型进行对比。2)科研热点可视化分析。采用三种方式来对科研热点的发展状况进行可视化展示,其中包括静态可视化方式:词云,动态可视化方式:主题河和TIARA(text insight via automated responsive analytics)。基于word2vec和LDA的主题模型,能够弥补LDA不考虑词与词之间相似性的不足,对主题和主题词的提取更加合理,而且本论文采用可视化的方式对提取的科研热点进行表示。这样做可以方便用户查找某个时间段的科研热点以及某一科研热点的发展态势等,方便科研工作者对科研热点的把握,国家对科研工作的支持和引导。