论文部分内容阅读
微博自诞生以来就以其广泛的参与性,改变了人们获取新闻的方式,近年来许多的热点新闻都是通过微博首先发布的,因此对微博进行热点话题挖掘具有重要的现实意义。但微博信息量大、信息分散等特点使得传统文本处理的方法已不能适应于微博信息的处理,如何快速、准确地发现微博热点话题是本文研究的内容。本文在分析微博信息特点的基础上,使用文本聚类方法提出了一种发现微博热点话题的方法,取得的成果如下:(1)提出了一种微博预处理的方法。根据微博内容上的不同分为原发、转发和评论微博,将转发和评论微博合并到原发微博中。微博与其它文本不同的一个特点是存在大量的转发与评论,它们都是源自原发微博,因此将转发和评论微博合并到原发微博可以在不影响热点话题发现结果的基础上减小微博文本表示的规模;此外,微博热点话题的形成主要是由于用户对该话题进行大量的转发和评论,将转发和评论微博合并到原发微博可以形成预热点话题。(2)提出了降低微博文本空间向量表示维度的方法。针对微博中存在大量干扰词的情况,本文借鉴微博平台上的词频统计方法,在微博文本经过分词、去停用词后,统计文本中每个词汇出现的频率,将频率低的词汇去掉,这样既去掉部分干扰词,又降低微博文本向量空间表示的维度。(3)提出了基于预选热点话题和时间窗口限定的单遍聚类与层次聚类相结合(TW-SPHC)的算法,对微博文本进行聚类。针对微博热点话题存在大量转发和时间相近的话题相似性高的特点,本文在单遍聚类前根据微博合并权重预选热点话题,并设定时间窗口以限定文本比较规模,这样可以在线性时间内完成单遍聚类;利用凝聚式层次聚类可以将内容相似的话题尽可能合并;在两次聚类间将孤立话题簇删除。通过以上方法可以得到各个话题簇,之后按照话题簇的权重排序即可得到热点话题。(4)将上述方法加以实现,并对算法的性能进行研究。通过实验验证了本文所提出的方法能够在数据量非常大的微博中准确、快速地识别热点话题,具有一定的应用价值。