论文部分内容阅读
近年来,随着互联网的深入发展,微博客已经成为一种重要的网络交流方式,并且已经融入了人们的日常生活,为人们提供了一种随时随地便捷分享和获取信息的渠道。但是,微博客的信息发布门槛低、时间线更新快以及信息呈现病毒式传播的特性都导致了用户获取微博消息时的严重信息过载问题。当面对急速更新的海量微博信息流时,人们的注意力被大量分散,从而无法高效地筛选出其中的热点话题。因此,如何准确、高效地检测出微博信息流中热点话题已经成为微博客研究的一个重要方向。此项研究不但可以帮助人们解决微博信息过载的问题,而且有助于对网络热点事件和舆情进行监控。为了实现对微博信息流中热点话题的检测,本文将微博短文本集作为主要研究对象,并将微博热点话题检测问题归结为针对微博短文本集的文本聚类问题。通过分析微博短文本的特点以及现有的文本聚类思想,本文提出了基于频繁趋势词集的语义聚类方法(FTSC),同时还设计实现了微博热点话题检测的原型系统,并在真实微博数据集上取得了良好的话题检测效果。本文的主要工作和成果如下:1.通过比较现有微博采集方式的优劣,并结合原型系统对数据源的要求,设计了基于微博开放API的微博信息采集器,并且通过增设访问令牌池削弱微博API使用限制带来的影响,加强了采集器的信息获取能力。2.通过分析微博短文本的特点,并结合微博话题检测的目标,提出了支持时间特性的微博特征选择方法。3.将频繁模式挖掘得到的频繁趋势词集作为描述微博集话题性的核心特征,引入《知网》语义库以扩展短文本的语义信息,并采用以聚类簇为中心的聚类思想,提出了基于频繁趋势词集的语义聚类方法(FTSC);通过实验分析了算法中簇最小支持度θ和簇间相似度阈值λ的设置问题;设计实现了微博话题检测原型系统,并在真实微博数据集上验证了原型系统的热点话题检测能力,同时还对聚类话题信息进行了可视化展示,挖掘了话题簇之间的隐含关系。