论文部分内容阅读
在线社交媒体已逐渐成为人们日常生活中新闻事件获取的主要渠道之一,同时,在线社交媒体的快捷式消息发布与推广,也更容易吸引了网民对当前热门新闻事件积极地讨论。而突发性话题的趋势检测技术的研究任务,是希望通过在校社交媒体上网民对实时事件的讨论和传播,挖掘突发性事件传播趋势,并预警事件演化和监控舆论导向。本文主要研究实时检测突发性话题的时间和空间发展趋势,定量分析趋势指标,以供用户分析参考。对于突发性话题的时间趋势检测,本文首先采用了Word-Sketch结构实时统计数据流中的突发性特征,再利用模糊集理论和聚类分析改良张量分解话题模型,采用改良后的话题模型实时挖掘数据流中的突发性话题,以希望减小噪音词和话题交叉现象对话题质量的影响。再结合基于PMI的方法自动化评估检测话题的质量,定量分析话题的推送价值。关于突发性话题的空间趋势检测,本文首先定义话题的传播空间为二元组(省,市)集合。再通过统计分析各省的社交指标,定义各省的社交度,基于社交度为(省,市)二元组赋权值计算话题的空间传播距离,从而估计话题的传播加速度,也即空间传播趋势。为了突出对特殊地区热议的和广泛地区热议的突发性话题,本文采用社交度与传播距离反相关的原则,社交度大的地区,反而对话题的空间传播距离贡献要比社交度小的地区小。最后,本文的实验是基于新浪微博7千万条博文数据实时检测突发性话题,并计算突发性话题的时空趋势。实验结果表明,本文采用的方法最短能在一个小时内检测到开始突发的话题,并且还能兼顾好话题质量,保证话题的语义一致性。同时特别突出对特殊地区热议的突发性话题和覆盖广泛区域的突发性话题的空间传播趋势检测。除此之外,时空趋势检测模型的运行内存占用量不会超过70%,保证了模型能持续高效进行检测任务。