论文部分内容阅读
当前网络环境下,开放的数据共享和传播方式为我们积累了极其庞大的数据资源,如何从这些海量数据中获取用户所需要的数据已然成为一个紧迫又重要的问题。文本是一种最基本且广泛使用的数据类型,长期以来一直受到研究人员的关注。主题模型是一种高效的特征抽取方法,已经成为研究文本的主要方法。它通过对文档的生成过程进行建模,抽取出文本的隐含信息——主题,将文本表示成由一组主题构成的低维向量。本文的研究目的是提出一种融合多个外部特征的改进主题模型,挖掘科技文献的隐含主题,从而研究主题演化和作者兴趣变化。研究意义在于为文本语义挖掘提供一种有效的模型和实现方法;在实现文本主题抽取的基础上,研究主题变化和作者兴趣变化的规律。论文的主要工作有:(1)主题模型的文献计量分析。在web of science中检索并获取主题模型相关的文献,绘制了国家与机构聚类图谱、共被引文献聚类图谱和关键词聚类图谱,可视化地呈现了主题模型相关研究的全貌。结果表明,主题模型的研究前沿朝着多样化的方向发展,不仅在传统的文本挖掘、语义分析上有了新突破,而且在社会化媒体、大数据等新应用环境下取得了新的进展。(2)提出一种改进主题模型。在研究了主题模型发展过程中的基础理论模型和应用研究现状后,结合动态主题模型和作者主题模型的优势,引入作者和时间两个外部特征,提出动态作者主题(Dynamic Author Topic,DAT)模型。然后从模型的输入、基本假设、模型的表示和参数估计四个方面详细论述了模型的实现过程。最后将该模型和其他主题模型进行了对比分析,表明了DAT模型在应用场景和复杂度上的优势。(3)主题演化和作者兴趣变化研究。利用动态作者主题模型抽取文本主题后得到主题词项概率分布和作者主题概率分布。根据主题词项分布,研究科技文献的主题内容变化和强度变化。根据作者在不同时间上对主题的关注度变化,研究作者兴趣变化。实验表明,DAT模型能够较为准确地反映主题演化和作者兴趣变化。本文的研究成果是,通过文献计量分析,揭示了主题模型相关研究的国内外现状和前沿热点。针对主题模型仅限于分析文档的内部特征,而不考虑外部特征的缺陷,提出了动态作者主题模型。通过主题抽取实验,证明了该模型可用于文本主题演化研究和作者兴趣变化研究。