论文部分内容阅读
凭借简便快捷的信息生成机制和传播机制,微博这一新兴的社交网络服务媒体在Web2.0时代已无处不在。与传统媒体相比,在新闻事件的播报和传播上,微博更加及时高效。因而基于微博数据的热点事件检测成为近几年的一个研究热点。但微博的一些特性为微博热点事件检测任务带来挑战。首先,微博数据流中有大量无价值、无意义的“噪声”微博,如何有效的从微博数据流中将令人感兴趣的事件微博与大量“噪声”微博区分开是微博热点事件检测面对的首要挑战。其次,一条微博只有不超过140个字符,文本极其稀疏,且常常包含拼写和语法错误、混合语言文字等,这些都使传统的文本分析技术无法直接应用于微博事件检测。本文首先研究了国内外现有微博热点事件检测相关技术,然后根据现有技术不足,在静态和动态两种类型的微博热点事件检测上进行了相关研究和扩展。在静态微博事件检测方面,本文提出一种基于主题模型和贝叶斯方法的文本分类方法在静态微博数据上检测事件微博,该方法将静态微博数据映射到主题空间表述,并挖掘主题与文本类型之间的关系,然后根据微博的主题类别属性是否为事件类判断该微博的类别属性。在动态事件检测方面,本文提出一种基于社区发现和图核计算的动态事件检测方法,该方法首先根据本文提出的一种动态事件词选取算法选取事件词;然后分时间片将动态实时微博数据流中的微博根据其所含事件词状态构建成微博语义图,每个时间片的微博语义图以微博博文为结点,以结点之间是否出现相同事件词为边,然后使用一种社区发现算法发现每个时间片微博语义图中的事件社区,并返回每个事件社区的关键结点微博作为该事件社区所反映事件的描述;本文还提出一种基于主题语义的编码方案为事件社区图中每个结点编制一个比特数组编码标签,得到新的带标签的事件社区图,最后应用一种图核算法,计算在相邻时间片的标签事件社区图的相似度,并根据计算结果匹配描述同一事件的事件社区,达到事件追踪的目的。本文以实时爬取的中文微博数据为实验数据,分别应用上述两种方法检测微博热点事件,实验结果表明,上述两种方法均能达到预期效果。