论文部分内容阅读
近年来,微博、推特和脸书等在线社交平台迅猛发展,用户量激增,正在冲击传统新闻媒体,成为当今社会人们最重要的一个方便快捷的信息获取来源和传播渠道。人们也研究和依靠在线社交网络分析的理论和方法,发现并分析隐含在社交媒体中的话题及其演化规律。随着数以亿计、来自不同领域方向,具有不同背景的人群,持续地在社交媒体上分享自己对于成千上万社会热点事件的观点与思想,上述话题的演化分析需求也被迫向着精准化和更细粒度的方向发展。基于用户感兴趣信息内容的发现并追踪社交网络中出现的事件的细粒度话题演化过程,成为当前话题演化分析研究的重要问题之一。本文在研究话题发现与演化的基础上,对基于在线社交网络的文本流中细粒度话题演化模型进行了深入的研究。主要关注如何从高度动态化的在线短文本数据流中,挖掘出用户感兴趣的高质量细粒度话题,并对其演化过程进行追踪和研究。帮助用户在高速变化的网络时代及时有效地了解和掌握其所关注的方面最前沿、最敏感的话题,并根据这些话题的演化规律和发展趋势做出相应的判断和决策。本文的主要研究内容,包括以下三个部分:第一,对当前主流的话题发现与演化技术进行研究,再结合新浪微博等在线社交网络中短文本的特点以及文档集合自带的时间信息,针对用户对于话题演化分析更聚焦、更细节的需求,分析了现有方法在解决这个问题中可能存在的不足与局限性,在TTM模型(targeted topic model)的基础上改进扩展成可对在线文本流进行话题演化分析的细粒度话题演化模型FG-TEM(fine-grained topic evolution model)。第二,定义了子话题间的五种关系。通过对文档集合按照固定尺寸的时间窗口进行划分,再通过细粒度话题演化模型获取不同时间窗口内的文档-话题概率分布和话题-词概率分布。通过计算不同时间窗口内子话题间的KL散度来判断子话题间的相似度,从而获得子话题间的演化路径,再计算不同时间窗口内各个子话题的话题强度。基于这一系列子话题间演化路径以及强度变化过程,绘制出用户感兴趣方面的细粒度话题在整个时间域上的细粒度话题内容和强度演化图。第三,针对在线社交网络文本的特点,提出了一种新的话题一致性度量指标EPMI。基于E-PMI对上述提出的细粒度话题演化模型进行评估,实验结果验证了FG-TEM生成的话题一致性高,质量好,更贴近用户需求,因此模型的效果也更好。