论文部分内容阅读
本文以微博和Twitter为对象研究社交网络上的事件挖掘。本文的研究内容主要为两个部分: (1)微博上的实时热门事件挖掘。我们将博文以小时划分,针对每小时的博文挖掘该小时内的热门事件。鉴于微博庞大的数据量,我们通过Burst检测的方法进行事件挖掘。本文以Kleinberg[3]的Burst挖掘方法为基础,结合微博特点提出改进的Burst挖掘算法。本文将挖掘出的Burst作为特征表示博文,对博文进行聚类。根据博文类的大小、类内相似度、HASHTAG等特征,我们对低质量博文类进行过滤,并对保留的博文类提取代表Burst集合。本文不直接展示代表Burst集合,为提高代表Burst集合的可理解性,我们对其进行扩展,并将扩展失败的博文类过滤。Burst集合的扩展不仅提高了自身的可理解性,也解决了噪音Burst所导致的与事件无关的博文类的问题。 (2)针对给定的查询,挖掘出与该查询相关的事件性Burst。鉴于社交网络上的噪音Burst,本文利用社交网络上多种的活动挖掘与事件相关的Burst。我们研究如何将多个活动结合得到全局的Burst趋势。我们提出了状态序列的平滑性问题,并给出了一种新的函数对序列平滑性进行建模。针对事件性Burst挖掘问题,本文提出了新的评测指标。以Twitter为数据集进行实验,我们的方法取得较好的效果。