基于BURST的社交网络事件挖掘

来源 :北京大学 | 被引量 : 0次 | 上传用户:lxf13098900158
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以微博和Twitter为对象研究社交网络上的事件挖掘。本文的研究内容主要为两个部分:  (1)微博上的实时热门事件挖掘。我们将博文以小时划分,针对每小时的博文挖掘该小时内的热门事件。鉴于微博庞大的数据量,我们通过Burst检测的方法进行事件挖掘。本文以Kleinberg[3]的Burst挖掘方法为基础,结合微博特点提出改进的Burst挖掘算法。本文将挖掘出的Burst作为特征表示博文,对博文进行聚类。根据博文类的大小、类内相似度、HASHTAG等特征,我们对低质量博文类进行过滤,并对保留的博文类提取代表Burst集合。本文不直接展示代表Burst集合,为提高代表Burst集合的可理解性,我们对其进行扩展,并将扩展失败的博文类过滤。Burst集合的扩展不仅提高了自身的可理解性,也解决了噪音Burst所导致的与事件无关的博文类的问题。  (2)针对给定的查询,挖掘出与该查询相关的事件性Burst。鉴于社交网络上的噪音Burst,本文利用社交网络上多种的活动挖掘与事件相关的Burst。我们研究如何将多个活动结合得到全局的Burst趋势。我们提出了状态序列的平滑性问题,并给出了一种新的函数对序列平滑性进行建模。针对事件性Burst挖掘问题,本文提出了新的评测指标。以Twitter为数据集进行实验,我们的方法取得较好的效果。
其他文献
随着计算机存储能力和计算速度的不断提高,真实场景的三维模型越来越多地出现在各种应用中,成为计算机表现现实世界的一种重要方式。三维模型具有真实、直观、方便观察等优点
自从人类创建和应用计算机网络以来,如何保障网络的安全一直是一个摆在我们面前的研究难题。随着网络技术的日益进步,网络规模的不断扩大和网络应用种类的不断增加,让网络安全的
随着计算机应用技术的飞速发展,以网络和信息技术为基础的网络教育已经越来越普遍,题库系统的建设及计算机智能组卷减轻了教师大量重复性的工作;同时计算机智能组卷有助于提高教
P2P技术去“中心化”的特性及“对等、共享”理念使网络资源得到了合理配置,带来了P2P应用的蓬勃发展。尤其是随着网络技术的不断升级,P2P流媒体应用的发展尤为迅速,逐渐取代了
共享存储的多处理器系统是当今最流行的并行计算系统结构,在高端服务器、桌面计算到嵌入式系统都有广泛应用。在这种体系结构上,并发执行的程序之间对共享存储资源的竞争,尤
随着多媒体技术的发展,任意视点视频(Free Viewpoint Video)技术让用户通过交互的方式从任意角度选择和操作具有真实视觉感的三维立体多媒体视频,从而得到不同角度的三维立体逼
随着通信、网络、存储等电子信息技术飞速发展,互联网上的数据规模激增,数据密集型服务给硬件体系结构设计、操作系统设计、成本功耗控制等带来了新的问题和挑战。对这些大数据
生物特征识别技术因为其安全性、稳定性和便捷性等特点,被广泛地应用于身份鉴别领域。常用于识别的生物特征包括指纹、人脸、虹膜、视网膜、掌形、签名、掌纹等。由于人类的眉
伴随着互联网的发展,XML已经逐渐成为Internet上数据交换和数据共享的标准,在互联网环境领域具有良好的发展势头。目前XML已广泛应用于企业间电子商务、知识管理、文档管理、企
在媒体行业中,新闻采编是一件费时费力的工作。通过信息化的手段实现新闻采编的自动化,帮助新闻记者提高工作效率,是一项具有实用价值的研究课题。争议性新闻是新闻报道领域的一