基于主题模型的突发话题检测与追踪方法研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:happybaby1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Web2.0社交网络的兴起,微博凭借其简单方便等突出的优点迅速普及,已成为人们发布和接收信息的重要方式,同时也为人们共享信息提供了重要的公共平台。微博每时每刻都在产生数以亿计的文本信息流,而这些海量的文本流中蕴含着丰富的潜在知识。在微博中,用户可以浏览感兴趣的话题并且阅读讨论与该话题有关的文本内容。当人们关心的话题发生时,与之相关的微博数量就会在短时间内呈现迸发激增的状态。微博的突发话题即为在短时间内对用户以及社会产生强烈影响的新兴网络话题。因此,如果能够在海量的微博数据中及时检测出突发话题,了解人们对突发话题的各种观点和感受,既可以应用于政府和其他相关部门对互联网舆情的控制,也可以帮助企业及时制定服务于商业领域的有效策略;同时分析微博用户对突发话题的关注行为还有益于改善个性化的用户服务。可见,从微博短文本流中检测并追踪突发话题具有重要的应用价值。然而,微博文本流属于短文本流,从短文本流中检测突发话题更具挑战性。为此,本文从以下三个方面对微博突发话题检测与追踪的方法进行了分析与研究:(1)充分利用微博文本中的突发特征,提出了一种基于BTM主题模型的微博突发话题检测方法。该方法通过动态滑动窗口来抓取微博信息流,并且根据信息流调整时间窗口的大小;进而,以物理动力学原理为基础,同时考虑微博的时序性和用户的社交网络行为,通过引入时间衰减性因子和微博热搜因子来对微博文本数据进行建模,实现了突发特征的有效提取和重复伪突发特征的有效过滤,克服了微博空间特性动态实时变化、信息噪声嘈杂和话题新颖度难以判断等方面的困难。在此基础上,逐步采用BTM(Biterm Topic Model)模型对主题进行建模,使用k-means聚类算法对突发特征进行聚类,实现了结合话题簇的突发特征的主题分布的排序,从而使用突发特征对突发话题进行形象化描述,获取了最终的突发话题。(2)针对话题演化的特性,提出了一种基于BTM主题模型的微博突发话题的演化追踪方法。由于在微博中已经检测出的突发话题会随着时序的推进而不断演化发展,甚至有些突发话题会出现反转的现象,这也导致了用户在不同的时刻对该突发话题的关注侧重点的不同。因此,鉴于微博的动态实时性,在概率主题模型BTM的基础上进行改进扩展成为微博突发话题演化追踪模型。该方法在BTM模型的基础上,引入一个二元指示变量,用来衡量提取的话题的主题是否与已经检测出的突发话题的主题相同。若相同则将其和已经检测出的突发话题组成新的话题集,并且利用时间片对该话题集进行划分;通过KL距离来计算相邻时间片的突发话题的距离,从而分析突发话题演化追踪的情况,实现对微博突发话题检测过程的完整性。(3)基于上述方法,本文设计并实现了一个完整的微博突发话题检测与追踪演示系统。该系统实现了包括数据采集、文本预处理、微博突发话题检测、微博突发话题演化追踪在内的一系列功能,并提供了相关信息的可视化呈现。
其他文献
简要分析了维吾尔族学生汉字习得偏误规律及原因,并尝试把"六书"、"文化"、"声调"与汉字教学相结合,探讨针对性的汉字认知教学策略,希冀能对维吾尔族学生的汉字教学有所帮助。
利用三维仿真软件,将2种不同格栅在50km/h车速下,对前端冷却模块气流状态的影响进行了模拟,并与风洞试验室进行的整车试验结果进行对标,对仿真模拟的准确性进行验证。在项目
增压开采是气田开发后期的常用增产工艺之一。针对靖边气田压力递减快、部分井已经采取间歇生产方式而必须进行低压气井增压的问题,借鉴目前国内外气田增压常用的设备及方法,结
研究了不同生育时期、品种、施肥量、叶位以及烘烤前后烟叶氨基酸含量的变化规律.结果表明,旺长期的氨基酸含量较高,进八成熟期后含量急剧下降,烟叶烘烤后,除胱氨酸、蛋氨酸
介绍了微生物调剖技术,综述了一些先进的室内研究手段如物理模拟微生物封堵及调剖实验、示踪剂技术和可视化技术,总结了激活本源微生物和注入外源微生物调剖技术及现场应用情
寻找文化创新的契合点──“元典文化丛书”评介刘小敏,汪维真“元典文化丛书”(李振宏主编),首批10种,即将由河南大学出版社出版,我们得以先睹为快.乐于向读者作一介绍。“元典文化丛
关于我国传统外贸的界定有很多种,大概分为外贸商业模式、外贸销售模式、外贸交付模式、外贸增长模式等等。$$传统的外贸商业模式基于订单合同,货期长、数量大、金额大、物流繁
报纸
近来从媒体上看到了不少关于"读史热"的报道,从阎崇年、易中天、李亚平到当年明月,从《正说清朝十二帝》《品三国》《帝国政界往事》到《明朝那些事儿》,一股全民"读史热"掀
期刊
<正>一廿间,二十载——2018年,康力电梯已走过了20个春秋,此时,我们翻看这家中国第一代电梯公司,不仅没有丝毫疲态,反而在智能制造、服务机器人等多线业务全面开花。在其中,
首先利用聚乙二醇缩水甘油醚(PEG-DE)、乙二醇二缩水甘油醚(EG-DE)与呋喃甲胺(FMA)进行预聚反应,合成了分子链上含有呋喃基团的聚醚胺预聚物(Pre-PEA),然后采用Diels-Alder反