论文部分内容阅读
微博客(即微博,Microblog)作为一种新兴的Web2.0应用,已经成为信息分享和传播的重要工具和平台,微博用户通过固定和移动设备,能够方便地发布、转发、与其他用户共享信息。由于传播速度快及内容短洁等特点,微博做为一种快速短文本流,不仅成为信息迅速传播的空间,甚至成为许多重大事件发布的第一现场。无论政府职能部门、还是微博用户,均具有通过微博了解网络舆情的需求,这种需求不仅包括获取微博中分散的信息,还包括及时了解整个微博中的热点话题以及话题的后续发展变化。针对此需求,本文研究面向微博事件流的话题检测与追踪技术,具体包括微博事件流热点话题检测以及微博事件流热点追踪。在微博事件流热点话题检测部分,针对微博事件流数据结构及内容形式的复杂性,首先提出了微博数据流过滤的方法,以此得到纯净的微博数据,提高了话题检测时间及空间的效率。然后针对微博数据及热点话题特点的分析结果提出了关键词抽取方法。针对热点话题词语关联性提出了基于频繁模式挖掘的话题检测,以此来提高关键词组内的内聚性。最后提出了基于短文本聚类的话题合并方法。实验表明本文的关键词抽取方法与传统的关键词抽取方法相比更适合微博数据,同时说明了本文话题检测方法的有效性。在微博事件流话题追踪部分,针对微博上热点话题传播速度快以及话题内容的演化特点,提出了基于动态更新话题模型的话题追踪方法。首先对话题以及按时间顺序的微博数据流建模,进行相似度比较,以此来选择所要追踪话题的相关微博。然后使用加入时间因素的LDA模型(DTM)进行话题特征提取,进一步对话题模型进行更新。最后针对话题模型的抽象性,提出了代表话题发展动态微博的选择方法,以直白、易懂的方式呈现给用户。实验表明本文的方法与其他话题特征提取方法相比,更能体现出话题发展的动态变化,能有效地挖掘出话题内容的演化。