论文部分内容阅读
作为一种流行的社交网络媒体,微博客(简称微博)使得用户能够更简单地分享、传播和获取信息。用户在使用微博服务的时候,希望能追踪自己所感兴趣事件的实时发展情况。本文主要针对微博环境下的话题追踪任务进行研究。与传统新闻媒体相比,微博具有文本长度短、传播速度快、用户群庞大、互动性强等特点,而且微博的实时性导致话题漂移更频繁、更难预测。这些特性使得微博环境下的话题追踪任务不同于传统的新闻媒体。为此,本文提出了基于时间滑动窗口的微博话题追踪模型和基于子话题检测的微博话题追踪模型,并实现了微博话题追踪的原型系统。 基于时间滑动窗口的微博话题追踪模型由内容模型和反馈模型两部分组成。内容模型用于描述微博内容的语义特征,本文抽取了微博包含的短链接所指向的网页的主题信息来扩展微博语义信息;特别地,本文发现过滤高质量的微博能提升话题追踪的效果,为此本文利用微博的社交化特征来衡量微博的质量。反馈模型通过一个时间滑动窗口用一组最近相关微博来动态描述话题当前的重心。除此之外,针对微博初始背景语料稀少的问题,本文采用一种动态更新背景语料索引的方法来处理冷启动问题。在TREC2012数据集上的实验证明,本文提出的方法在T11SU和F-0.5评价标准上都取得了很好的结果。 为了处理微博环境下的话题漂移现象,本文提出了基于子话题检测的微博话题追踪模型。本文认为话题的子话题有助于观察事件的发展历程,并且,子话题可以帮助判断新发布的微博跟话题的相关性。在该模型中,本文提出了两种子话题表达模型:基于微博词汇的子话题表达模型和结合微博词汇和时间因素的子话题表达模型。在TREC2012数据集上的实验证明,该方法在T11SU和F-0.5评价标准上都取得了很好的效果。特别地,当话题对实时信息比较敏感时,使用结合微博词汇和时间因素的子话题表达模型能取得更好的追踪效果。