基于主题模型和社区发现的微博热点事件检测研究

被引量 : 0次 | 上传用户:mabin85281528
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
凭借简便快捷的信息生成机制和传播机制,微博这一新兴的社交网络服务媒体在Web2.0时代已无处不在。与传统媒体相比,在新闻事件的播报和传播上,微博更加及时高效。因而基于微博数据的热点事件检测成为近几年的一个研究热点。但微博的一些特性为微博热点事件检测任务带来挑战。首先,微博数据流中有大量无价值、无意义的“噪声”微博,如何有效的从微博数据流中将令人感兴趣的事件微博与大量“噪声”微博区分开是微博热点事件检测面对的首要挑战。其次,一条微博只有不超过140个字符,文本极其稀疏,且常常包含拼写和语法错误、混合语言文字等,这些都使传统的文本分析技术无法直接应用于微博事件检测。本文首先研究了国内外现有微博热点事件检测相关技术,然后根据现有技术不足,在静态和动态两种类型的微博热点事件检测上进行了相关研究和扩展。在静态微博事件检测方面,本文提出一种基于主题模型和贝叶斯方法的文本分类方法在静态微博数据上检测事件微博,该方法将静态微博数据映射到主题空间表述,并挖掘主题与文本类型之间的关系,然后根据微博的主题类别属性是否为事件类判断该微博的类别属性。在动态事件检测方面,本文提出一种基于社区发现和图核计算的动态事件检测方法,该方法首先根据本文提出的一种动态事件词选取算法选取事件词;然后分时间片将动态实时微博数据流中的微博根据其所含事件词状态构建成微博语义图,每个时间片的微博语义图以微博博文为结点,以结点之间是否出现相同事件词为边,然后使用一种社区发现算法发现每个时间片微博语义图中的事件社区,并返回每个事件社区的关键结点微博作为该事件社区所反映事件的描述;本文还提出一种基于主题语义的编码方案为事件社区图中每个结点编制一个比特数组编码标签,得到新的带标签的事件社区图,最后应用一种图核算法,计算在相邻时间片的标签事件社区图的相似度,并根据计算结果匹配描述同一事件的事件社区,达到事件追踪的目的。本文以实时爬取的中文微博数据为实验数据,分别应用上述两种方法检测微博热点事件,实验结果表明,上述两种方法均能达到预期效果。
其他文献
目前在我国的高校篮球教学课程中,多数学生存在身体关节损伤情况。本研究对比分析了福建商学院2016级和2017级的275名学生在参与篮球训练过程中发生身体损伤情况的比例。通过
【正】经济周期并不会因为结构调整而"死去",作为市场研究者,我们是敬畏经济周期的,"周期的逆袭"并非空中楼阁、无源之水,而是基于经济周期研究而得到的投资决策,经济周期的
科学的教师课程体系的构建,对于学生小学阶段的学习具有重要意义。它有利于教师按照既定程序开展教学,有利于学生总结个人数学学习的进度,并对照自查学习中存在的问题。能为
近几年,越来越多的瑜伽馆出现在大中城市,然而,瑜伽馆作为休闲体育服务业的一种典型形态,其迅猛的发展只体现在数量上,就质量而言,大多数的瑜伽馆经营处于微利或亏损的状态。
本文研究的主要内容是广西长洲大坝监测系统的设计与实现,该系统主要用于大坝日常运行数据的监测,通过对数据监测、采集、分析和整理,对大坝安全运行状态进行评估和预测,从而
在新的市场经济时代,企业所面临的经营环境不断发生着变化,其所面临竞争也异常激烈。管理者对企业战略管理的关注越来越具有必要性。人力资源管理作为企业战略管理的重要组成
业务的平台搭建和应用往往与网络的现状相悖离。为了应对三网融合带来的新形势、大容量、高带宽的需求,网络后台要不断的根据业务需求配置数据、升级硬件。但网络断层的产生
目前,各种社会矛盾通过信访不断涌现。这是我国传统的“分散式”、“碎片化”信访工作模式的严峻挑战。信访工作的核心任务是为政府妥善化解各类社会矛盾。改革信访工作面临
词汇是语言学习的重要因素之一,是构成语言的重要材料,没有词汇就没有语言。在一门外语学习中,词汇教学占据着至关重要的地位,学好一门语言,关键在于掌握这门语言大量的相关
诗歌是人类文明的结晶,是文学百花园的瑰宝。中国是诗歌大国,诗词曲赋丰富多样,浩如烟海。优秀的古诗词作品一直是语文教材的重要篇目,历久不衰。以人教版7-9年级语文教材为例,列