话题演变的在线方法研究

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:loveme2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的出现和高速发展,互联网中用户所产生的信息容量和用户数量都呈现爆炸性增长的趋势,网络平台已经成为人们日常生活中不可缺少的信息获取、交流和传播的重要媒体。互联网上大量的信息流中,有很大一部分是长度很短的文本数据,如微博、论坛等。这些文本数据中包含了人们对社会各种现象的种种观点和立场,话题涉及政治、经济、军事、金融、生活、娱乐等各个领域。因此对这些数据流中热点话题的发现能够及时发现社会的新话题和热点人物,对其跟踪能够帮助人们了解特定数据流中话题的产生、传播、发展、消亡的规律。互联网已经成为人们获取信息和发布信息的一个主要渠道,突发新闻事件或新闻话题可以在互联网上快速传播,而如何跟踪该新闻事件或新闻话题的后续发展,是人们关心和迫切需要解决的问题。随着时间的推移,新闻话题的内容会发生变化,新闻话题的强度也会经历一个高潮到低潮的过程。如何有效地组织这些大规模文档,并且按照时间顺序来获取文本集合中话题的演化趋势,可以帮助人们跟踪感兴趣的话题。更重要的是,在一些新闻专题报道和安全机构针对犯罪探测和预防的任务中,更需要从文本集合中快速准确地跟踪话题的演化趋势并且根据演化趋势做出相应的预测。因此,话题演化的研究具有实际意义。与传统的特征抽取方法相比,非负矩阵分解(NMF)方法抽取的特征向量更能反映样本的局部特征,并具有很高的可解释性和预测性。因此,本文首先介绍了NMF算法及其在文本聚类方面的应用,由于NMF存在初始化敏感和收敛速度慢的问题,本文提出用K均值算法来初始化NMF算法。然后,本文针对社交网络中数据流的特点,为了跟踪话题的变化趋势,本文提出了一种基于NMF的在线非负矩阵分解方法(ONMF)。由于本文处理的数据是微博数据,因此存在数据的稀疏和局部问题,针对这些问题,本文对ONMF方法进行了稀疏和归一化约束。并且,本文将ONMF方法应用到2010年的海地地震事件,跟踪该事件话题的变化,并取得了较好的结果。
其他文献
支持向量机(SVM)具有理论基础完备、所需训练样本数目少、泛化能力强等优点,已经在文本分类、人脸图像识别、手写数字识别、语音识别、生物信息学等模式识别领域中获得广泛应
网络图中的motif是一种连通的导出子图,并且满足在原图中出现的次数比它在随机图中出现的次数多很多。这种性质可以解释成这种子图在原图中扮演了比在任意的随机图中更加重要
随着多媒体技术的迅速发展以及互联网的普及,数字图像广泛应用于日常生活和工作中,与此同时图像编辑处理工具Photoshop、ACDSee等的迅速发展,使得编辑图像内容变得越来越简单。
在教学实验中直接使用CoreABC指令集系统进行代码编程,对于初步接触数字电路的学生而言是有一定难度的,从而造成难以完成实验目标以及理解CoreABC微控制系统。如果用标准C语
作为组合优化领域与计算机科学中的一个重要分支,装箱问题越来越受到人们的关注与重视。随着科技的发展,组合优化问题在生活中的应用越来频繁,装箱问题的研究得到了飞速的发展,并
随着工作流技术广泛应用于生物信息学实验,其整合分析工具完成复杂生物计算的能力越来越受到人们关注。生物信息工作流通过一种模块化的流程表达方式形象地描述计算分析的过程
近年来,科学技术迅猛发展,信息技术已经渗入社会、经济、生活等各个领域,但信息技术是一把双刃剑,一方面它的便捷性和全球性对经济的发展起到有力的推动作用,另一方面,其自身的缺陷
背包问题在众多工业领域中都能遇到,诸如交通、物流、切割及包装、电信、可靠性、广告、投资、预算分配和生产管理。在这些应用中,背包问题一般作为独立的问题或复杂的子问题出
在软件管理系统中,数据大部分存储在传统的关系型数据库中,但当业务复杂度的提高和数据量的不断增加,简单的通过单一节点的数据库处理方式已经无法满足用户对于希望快速获取反馈
集成学习,是先将样本提供给多个学习模型,再采取投票或是级联等方法把这些学习模型的输出集成起来的学习模型。集成学习采用合成多个学习模型的输出,能够显著的提高学习模型的泛