面向微博事件流的话题检测与追踪技术研究与实现

来源 :东北大学 | 被引量 : 3次 | 上传用户:jipin226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博客(即微博,Microblog)作为一种新兴的Web2.0应用,已经成为信息分享和传播的重要工具和平台,微博用户通过固定和移动设备,能够方便地发布、转发、与其他用户共享信息。由于传播速度快及内容短洁等特点,微博做为一种快速短文本流,不仅成为信息迅速传播的空间,甚至成为许多重大事件发布的第一现场。无论政府职能部门、还是微博用户,均具有通过微博了解网络舆情的需求,这种需求不仅包括获取微博中分散的信息,还包括及时了解整个微博中的热点话题以及话题的后续发展变化。针对此需求,本文研究面向微博事件流的话题检测与追踪技术,具体包括微博事件流热点话题检测以及微博事件流热点追踪。在微博事件流热点话题检测部分,针对微博事件流数据结构及内容形式的复杂性,首先提出了微博数据流过滤的方法,以此得到纯净的微博数据,提高了话题检测时间及空间的效率。然后针对微博数据及热点话题特点的分析结果提出了关键词抽取方法。针对热点话题词语关联性提出了基于频繁模式挖掘的话题检测,以此来提高关键词组内的内聚性。最后提出了基于短文本聚类的话题合并方法。实验表明本文的关键词抽取方法与传统的关键词抽取方法相比更适合微博数据,同时说明了本文话题检测方法的有效性。在微博事件流话题追踪部分,针对微博上热点话题传播速度快以及话题内容的演化特点,提出了基于动态更新话题模型的话题追踪方法。首先对话题以及按时间顺序的微博数据流建模,进行相似度比较,以此来选择所要追踪话题的相关微博。然后使用加入时间因素的LDA模型(DTM)进行话题特征提取,进一步对话题模型进行更新。最后针对话题模型的抽象性,提出了代表话题发展动态微博的选择方法,以直白、易懂的方式呈现给用户。实验表明本文的方法与其他话题特征提取方法相比,更能体现出话题发展的动态变化,能有效地挖掘出话题内容的演化。
其他文献
航班进场排序是空中交通流量管理的重要内容之一,由于存在各种不确定性的因素以及信息交互缺乏实时性,机场终端区容易出现拥挤现象。航班进场排序的主要目的是,在确保安全的
随着计算机网络的不断发展,全球信息化已成为人类发展的大趋势。但由于计算机网络具有联结形式多样性、终端分布不均匀性和网络的开放性、互连性等特征,致使网络易受黑客、怪
本文对基于流量密度分析的攻击源追踪技术进行了研究。文章介绍了拒绝服务攻击的一些背景和主要的攻击手段;重点讨论了已有的一些攻击源追踪技术,包括ICMP定位报文法、概率包标
网络与计算机越来越广泛的使用在现今社会,企业、政府和其他组织的工作也越来越依赖于计算机网络系统,因此安全问题也更加突出。入侵检测系统IDS(Intrusion Detecton System)
将图像处理技术应用到车辆驾驶辅助系统当中可以有效地为车辆安全行驶提供安全保障。利用图像处理技术对障碍物体进行识别是车辆驾驶辅助系统实现的主要功能。本课题采用图像
随着石油企业计算机技术运用的不断深入,传统的基于Intranet的钻井信息管理造成的平台和数据结构的异构性使得不同部门及合作的石油企业间的钻井信息难以交换和共享。数据集成
无线传感器网络经常会遭受各种安全威胁,例如节点暴露在不安全的物理环境中时容易被俘获;采用无线电传播信号时信号容易被截获等。因此无线传感器网络安全是无线传感器网络的
近年来,数据挖掘技术的研究引起了国际人工智能和数据库等领域专家与学者的广泛关注。在事务数据库中挖掘关联规则是数据挖掘领域中的一个非常重要的研究课题。目前以Apriori
随着电子通信和计算技术的迅猛发展,网络化嵌入式系统特别是CPS(物理信息系统)已成为国内外研究的重要领域,而节点操作系统是CPS研究的关键方向。其中,文件系统作为节点操作
在过去的十几年时间内,因特网得到了爆炸式的增长。虽然网络带宽容量也有了飞速的增长,但由于用户数量的增加和各种新型应用的出现,使Internet的流量急剧增长,网络负载反而比