论文部分内容阅读
进入WEB 2.0以来,社交媒体给人们的生活带来越来越多的乐趣,人们的生活已经离不开移动互联网。同时以微博为代表的社交媒体成为公众获取时政信息、讨论社会热点以及学习交流的重要渠道。微博以其便利性及低门槛性受到公众的欢迎,与此同时,公众可以通过各种终端浏览微博话题或者发布微博信息。一些网民发表自己当时的心情与生活状态,还有一些网民发表自己对某些热点话题的见解,使得微博平台产生了各种各样杂乱无章的信息。面对各种结构的复杂信息,通过人力去发现热点话题显得不切实际。尤其是进入大数据时代以来,数据体量大,数据更新速度快以及数据的多样性和真实性给数据挖掘带来了一定的挑战。因此,研究微博的热点话题发现以及演化是一项有价值的课题。如何快速准确的发现整个微博空间中公众讨论的热点话题,并探究这些话题背后的演化规律一直是相关学者的研究目标。目前的研究存在以下不足:一是在热点话题发现方面,建模前的特征选择阶段未考虑到微博的特性,提取的特征不够精确,从而影响话题发现的效率;同时以往的研究中并没有一种适合微博特征的热点话题发现的框架;二是在热点话题演化方面没有一种结合微博话题标签实时地发现话题演化规律的模型,也没有对话题演化规律进行可视化的展示。基于此,本文做了如下改进:(1)提出一种结合微博社交性的热点话题发现框架,主要包括数据预处理、文本表示以及热点话题发现三部分。首先通过数据预处理提取出有意义的词;其次在文本表示阶段考虑了微博的社交性,借鉴H指数的思想提出词项H指数来筛选特征词,通过词项H指数选出的特征词本身就是热点词汇,提高了建模的精度又降低了建模维度,然后对特征词分别通过VSM和BTM建模,将微博表示为“文档-词”向量和“文档-主题”向量,通过文本内部的语义信息弥补了短文本面临特征稀疏的困难。在热点话题发现阶段,通过K-Means聚类算法得出微博的热点话题。最后设计评价标准以及对比实验,通过实验验证了本文提出方法的有效性。(2)提出一种微博热点话题演化模型—标签在线狄利克雷分配模型LOLDA(Label On-line Latent Dirichlet Allocation)。通过运用OLDA(On-line Latent Dirichlet Allocation)可以实时地追踪热点话题演化的优势以及微博独有的“话题标签”的特性提出适合微博的热点话题演化模型,并展示了其生成过程以及参数估计的过程。最后设计实验验证了本文提出的模型较传统模型具有更好地泛化能力。具体过程为:利用Python语言编程爬取新浪微博平台的数据,对原始数据进行数据预处理、利用本文提出的方法提取建模所需的特征词,之后利用LOLDA模型建模,最后从话题强度和话题内容两个方面来分析微博数据的热点话题演化的规律,并对其规律进行可视化展示。