论文部分内容阅读
随着Web2.0的出现和高速发展,互联网中用户所产生的信息容量和用户数量都呈现爆炸性增长的趋势,网络平台已经成为人们日常生活中不可缺少的信息获取、交流和传播的重要媒体。互联网上大量的信息流中,有很大一部分是长度很短的文本数据,如微博、论坛等。这些文本数据中包含了人们对社会各种现象的种种观点和立场,话题涉及政治、经济、军事、金融、生活、娱乐等各个领域。因此对这些数据流中热点话题的发现能够及时发现社会的新话题和热点人物,对其跟踪能够帮助人们了解特定数据流中话题的产生、传播、发展、消亡的规律。互联网已经成为人们获取信息和发布信息的一个主要渠道,突发新闻事件或新闻话题可以在互联网上快速传播,而如何跟踪该新闻事件或新闻话题的后续发展,是人们关心和迫切需要解决的问题。随着时间的推移,新闻话题的内容会发生变化,新闻话题的强度也会经历一个高潮到低潮的过程。如何有效地组织这些大规模文档,并且按照时间顺序来获取文本集合中话题的演化趋势,可以帮助人们跟踪感兴趣的话题。更重要的是,在一些新闻专题报道和安全机构针对犯罪探测和预防的任务中,更需要从文本集合中快速准确地跟踪话题的演化趋势并且根据演化趋势做出相应的预测。因此,话题演化的研究具有实际意义。与传统的特征抽取方法相比,非负矩阵分解(NMF)方法抽取的特征向量更能反映样本的局部特征,并具有很高的可解释性和预测性。因此,本文首先介绍了NMF算法及其在文本聚类方面的应用,由于NMF存在初始化敏感和收敛速度慢的问题,本文提出用K均值算法来初始化NMF算法。然后,本文针对社交网络中数据流的特点,为了跟踪话题的变化趋势,本文提出了一种基于NMF的在线非负矩阵分解方法(ONMF)。由于本文处理的数据是微博数据,因此存在数据的稀疏和局部问题,针对这些问题,本文对ONMF方法进行了稀疏和归一化约束。并且,本文将ONMF方法应用到2010年的海地地震事件,跟踪该事件话题的变化,并取得了较好的结果。