论文部分内容阅读
随着互联网的迅速发展,微博作为一种新的网络媒体形式,在人们获取新闻、消遣娱乐等日常网络行为中扮演着越来越重要的角色。与传统书面文章相比,微博文本简短、转发评论实时性强、话题传播速度快、关注度高,这使得微博数据成为新的热门研究对象。微博主题检测技术是研究如何对大量的微博数据信息进行管理分类,这己经成为当前微博研究中最热门的方向之一。主要工作内容如下:(1)微博文本简短、信息量少且语法随意,传统主题分类并不理想。Labeled LDA在LDA主题模型上附加类别标签,协同计算隐含主题分配量使文本分类效果有所改进,但标签在处理隐性主题或主题词频相近的微博分类上,存在一定的模糊分配。本文提出的Union Labeled LDA模型通过引入评论转发信息丰富Label标签,进一步提升标签监督下的主题词频强度,一定程度上显化隐性微博、优化同频词汇的主题分配,采用吉布斯采样的方法求解模型。(2)本文还探讨了如何快速便捷地利用微博开放平台的API接口实现获取微博数据及其评论与转发信息。设计递归算法合理地对微博进行读取和分词,并设计相应的数据库结构进行存储。另外,本文还考虑针对微博特点的数据预处理、网络符号替换和情感词扩充,使主题模型的输出更加准确,并能识别微博作者的一些情感色彩。综上所述,论文主要工作集中在通过引入评论转发信息,研究分析微博独有的结构,定量提高中心主题标签出现的频率,来改进Labeled LDA的监督训练过程,并对主题相关性进行数学定义和定量分析。系统实现环节围绕微博开放平台API的数据采集、数据预处理、Label标签的矢量叠加三个方面进行了探讨与研究,在传统主题模型方法基础上得到更准确的文章与主题、主题与词汇的概率分布。最后,对比分析新模型和传统主题模型的输出结果,并分析调整新模型自身相关性参数的设置。