论文部分内容阅读
随着微博这种新兴的社交平台迅速发展,越来越多的用户使用,并且在上面发布事件信息,由于微博的传播速度非常迅速,对新闻传播的意义非常大,从微博数据中发现热点事件有着极大的需求。但是由于微博数据拥有规模大、噪声多、文本较短等特点,给话题检测与跟踪带来了巨大的挑战。本文在别人研究关于话题检测与跟踪的基础上,分析传统的话题检测与跟踪算法的缺点,提出一个基于倒排索引的方法来提高算法的处理速度,但不降低算法的精度。通过对微博数据分析,人工建立一些规则对微博数据进行噪声处理。然后对数据建立倒排索引,并进行话题检测与跟踪。对于每天获取的新的事件,根据事件的熵值和用户数量对事件进行排序,将列表前20的事件与之前的旧事件进行合并。在合并之前,利用基于衰老理论的方法来得到需要合并的旧事件集合。本文同时分析了AP聚类算法在微博数据集上的结果。为了验证算法效率的提升,本文通过在不同级别的数据集上对比传统的SINGLE-PASS算法和基于倒排索引的改进算法的处理时间,通过实验对比得知,基于倒排索引改进的算法能达到6-7倍的速度提升,性能远远高于传统的文本聚类算法。由于实验没有标准的语料集合,本文通过人工标注的方式获得了一个测试集合,测试集合包含26个事件,共计2817篇文档。通过在测试集合上面的实验分析,本文提出的算法能够获得较好的精度。本文还对比了不同的权重计算方式在微博数据上面的结果。同时还对比了AP聚类算法和SINGLE-PASS算法在微博数据集上的结果。由于微博数据量比较大,文本聚类算法会得出很多用户不感兴趣的事件,本文通过计算事件的熵值和参与事件的用户数量对事件进行排序。通过对比发现,这种方法能够将用户感兴趣的话题排在事件列表前面。结合本文提出的算法,设计了一个微博话题检测系统,用于发现微博数据中产生的重大事件。