微博热点话题检测研究与分析

被引量 : 0次 | 上传用户:lpdshr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的深入发展,微博客已经成为一种重要的网络交流方式,并且已经融入了人们的日常生活,为人们提供了一种随时随地便捷分享和获取信息的渠道。但是,微博客的信息发布门槛低、时间线更新快以及信息呈现病毒式传播的特性都导致了用户获取微博消息时的严重信息过载问题。当面对急速更新的海量微博信息流时,人们的注意力被大量分散,从而无法高效地筛选出其中的热点话题。因此,如何准确、高效地检测出微博信息流中热点话题已经成为微博客研究的一个重要方向。此项研究不但可以帮助人们解决微博信息过载的问题,而且有助于对网络热点事件和舆情进行监控。为了实现对微博信息流中热点话题的检测,本文将微博短文本集作为主要研究对象,并将微博热点话题检测问题归结为针对微博短文本集的文本聚类问题。通过分析微博短文本的特点以及现有的文本聚类思想,本文提出了基于频繁趋势词集的语义聚类方法(FTSC),同时还设计实现了微博热点话题检测的原型系统,并在真实微博数据集上取得了良好的话题检测效果。本文的主要工作和成果如下:1.通过比较现有微博采集方式的优劣,并结合原型系统对数据源的要求,设计了基于微博开放API的微博信息采集器,并且通过增设访问令牌池削弱微博API使用限制带来的影响,加强了采集器的信息获取能力。2.通过分析微博短文本的特点,并结合微博话题检测的目标,提出了支持时间特性的微博特征选择方法。3.将频繁模式挖掘得到的频繁趋势词集作为描述微博集话题性的核心特征,引入《知网》语义库以扩展短文本的语义信息,并采用以聚类簇为中心的聚类思想,提出了基于频繁趋势词集的语义聚类方法(FTSC);通过实验分析了算法中簇最小支持度θ和簇间相似度阈值λ的设置问题;设计实现了微博话题检测原型系统,并在真实微博数据集上验证了原型系统的热点话题检测能力,同时还对聚类话题信息进行了可视化展示,挖掘了话题簇之间的隐含关系。
其他文献
通过对常见的最短路径及其算法的分析,指出以往的最短路径算法不能实现公 交路线的查询,提出更适合公交查询的最短路径算法以及广州市公交线路查询系统的实现。
<正>随着医院现代化的发展和医疗措施上侵袭性诊疗手段、激素、化学方法、放射治疗及抗生素的广泛应用,国内外院内感染发生率均呈明显上升。发生院内感染不但会给患者增添额
马泰松是18世纪德国著名的作曲家、音乐理论家、音乐评论家。他不仅创作了大量的音乐作品,而且在音乐美学领域也有许多著述,并对音乐的本质、内容和形式有着独特的见解,他的
[目的]制定香薷散含量测定的方法。[方法]采用薄层扫描法对香薷散中主要有效成分厚朴酚与和厚朴酚进行含量测定。[结果]厚朴酚含量为0.61%-0.65%;和厚朴酚含量为0.47%-0.58%。
魏晋时期,伴随着理性世界的转变,人们的感性世界也发生了极大的变化,出现所谓的魏晋“深情”。这种以知识分子为情感主体的“深情”,既不同于《诗经》时代原发性的“民情”,也不同
电子商务作为21世纪主要商业运作模式,为第三方物流提供了广阔的发展空间,同时,第三方物流的发展又为电子商务的实现提供了现实保障。本文从物流在电子商务发展中的推动力入
交叉询问制度是英美法系国家重要的审判制度和证据规则。本文拟对英美法系诉讼中的交叉询问制度的涵义、特点、规则和运用作一粗浅研究,并结合交叉询问制度的运行趋势和我国
美国是个多民族的国家。在400多年来的语言接触中,语言借用促进了美国英语的形成;语言转用推动了美国英语的发展;词汇扩散导致了美国英语的扩张。随着语言社会使用功能的增强
英语动物习语作为社会文化的一部分,其内在的含义是通过运用各种比喻形象体现出来的。而这些比喻形象受到人类文化的进化、各民族的审美观及所处的地理环境所影响和制约。本
分析了我国企业员工绩效管理的现状 ,并在结合美日两国企业绩效管理成功经验的基础上 ,提出了实施员工绩效管理的有效途径 :①在全员中宣传渗透绩效管理的理念 ;②把绩效管理