论文部分内容阅读
近年来,随着Web2.0社交网络的兴起,微博凭借其简单方便等突出的优点迅速普及,已成为人们发布和接收信息的重要方式,同时也为人们共享信息提供了重要的公共平台。微博每时每刻都在产生数以亿计的文本信息流,而这些海量的文本流中蕴含着丰富的潜在知识。在微博中,用户可以浏览感兴趣的话题并且阅读讨论与该话题有关的文本内容。当人们关心的话题发生时,与之相关的微博数量就会在短时间内呈现迸发激增的状态。微博的突发话题即为在短时间内对用户以及社会产生强烈影响的新兴网络话题。因此,如果能够在海量的微博数据中及时检测出突发话题,了解人们对突发话题的各种观点和感受,既可以应用于政府和其他相关部门对互联网舆情的控制,也可以帮助企业及时制定服务于商业领域的有效策略;同时分析微博用户对突发话题的关注行为还有益于改善个性化的用户服务。可见,从微博短文本流中检测并追踪突发话题具有重要的应用价值。然而,微博文本流属于短文本流,从短文本流中检测突发话题更具挑战性。为此,本文从以下三个方面对微博突发话题检测与追踪的方法进行了分析与研究:(1)充分利用微博文本中的突发特征,提出了一种基于BTM主题模型的微博突发话题检测方法。该方法通过动态滑动窗口来抓取微博信息流,并且根据信息流调整时间窗口的大小;进而,以物理动力学原理为基础,同时考虑微博的时序性和用户的社交网络行为,通过引入时间衰减性因子和微博热搜因子来对微博文本数据进行建模,实现了突发特征的有效提取和重复伪突发特征的有效过滤,克服了微博空间特性动态实时变化、信息噪声嘈杂和话题新颖度难以判断等方面的困难。在此基础上,逐步采用BTM(Biterm Topic Model)模型对主题进行建模,使用k-means聚类算法对突发特征进行聚类,实现了结合话题簇的突发特征的主题分布的排序,从而使用突发特征对突发话题进行形象化描述,获取了最终的突发话题。(2)针对话题演化的特性,提出了一种基于BTM主题模型的微博突发话题的演化追踪方法。由于在微博中已经检测出的突发话题会随着时序的推进而不断演化发展,甚至有些突发话题会出现反转的现象,这也导致了用户在不同的时刻对该突发话题的关注侧重点的不同。因此,鉴于微博的动态实时性,在概率主题模型BTM的基础上进行改进扩展成为微博突发话题演化追踪模型。该方法在BTM模型的基础上,引入一个二元指示变量,用来衡量提取的话题的主题是否与已经检测出的突发话题的主题相同。若相同则将其和已经检测出的突发话题组成新的话题集,并且利用时间片对该话题集进行划分;通过KL距离来计算相邻时间片的突发话题的距离,从而分析突发话题演化追踪的情况,实现对微博突发话题检测过程的完整性。(3)基于上述方法,本文设计并实现了一个完整的微博突发话题检测与追踪演示系统。该系统实现了包括数据采集、文本预处理、微博突发话题检测、微博突发话题演化追踪在内的一系列功能,并提供了相关信息的可视化呈现。