基于语义指纹关联的网络事件热度分析方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:jacykeaichenai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络媒体应运而生,传统媒体公司也随之建立了新闻发布网站。网络传播的快捷性、互动性、开放性等特点使得民众可以快速关注网络上的热点事件,发表看法、参与讨论。随着民众的关注,负面热点事件的事件破坏力可能会对社会的和谐造成不好的影响,因此,在热点事件的萌芽阶段及时发现热点事件并采取适当的措施进行处理,是热点事件下一步的研究方向。目前的热点事件发现方法主要是通过文本处理的方法对网络上的信息进行归类,然后对每一类事件进行热度分析。这类方法属于事后分析,如果能在事件的萌芽阶段发现并及时处理该事件就能有效降低影响。因此,本文研究的目标是在事件的萌芽阶段分析事件的热度,判断其是否会成为热点事件。新的事件刚产生时,事件的报道数量、评论数、点击率等都很少,通过热度计算公式不能判断其是否会成为热点事件。分析热点事件的特点,发现有很多与热点事件相关的事件在过去发生过。这说明热点事件之间相互关联,因此可通过已经发生的热点事件分析当前事件的热度。本文首先提出事件语义指纹的概念描述事件,事件的语义指纹分为主体、主题、时间、地点四部分,从这四部分描述一个事件。事件的主体、时间、地点等属于命名实体,可通过命名实体识别技术得到,根据每部分的特点,分别计算它们的贡献度;事件的主题主要描述事件的内容,通过柯式复杂性理论和共词矩阵得到最能代表事件的相关特征词作为事件的主题。事件的语义指纹根据事件每个方面的特点来描述一个事件,比传统的文本向量表示事件的方法更加完善。然后基于事件的语义指纹计算两个事件的相关度,建立关联事件图,分析图中每个事件的热度,依据PageRank算法的思想得到每个事件的重要性,计算事件的热度向量与事件的重要性向量的乘积,得到当前事件的热度。分别计算事件的语义指纹的四个方面的关联度来得到事件之间的关联度,以事件关联度为边的权重,建立权重矩阵,迭代计算事件关联图中事件的重要性,当收敛时得到关联图中每个事件的重要性。最后将事件的语义指纹与TF-IDF、BM25等方法在检索模型里作对比,发现事件的语义指纹能更好的表示一个事件,将事件关联图模型计算得到的事件的热度与实际热度进行比较,热度预测效果很好,说明了基于事件关联方法的有效性。
其他文献
P2P网络作为一种分布式的网络结构,改变了以往C/S(客户端/服务器)为主的网络结构,成为得到网络用户广泛认可一种结构。然而,P2P高效的文件分发机制在为用户带来便利的同时也
如今,人们把握数据的能力在不断提升。面对海量数据,人们更加关注的是隐藏在数据背后的重要信息,而非数据本身。数据挖掘满足了我们的需求,它是帮助我们发现数据中重要知识的
网格被视为继Internet技术和Web技术之后的第三代互联网技术,能够最大限度地实现网络资源共享和调度,因此网格技术在国内外迅速发展。   网格的目标就是能够实现计算、存储
随着无线网络的广泛应用与飞速发展,不满足Internet基本假设的受限网络不断涌现。与传统无线网络不同,这些网络中通常不存在稳定的端到端路径,传输延时一般较高。容迟/容断网
本文主要研究了基于空间变换核天文图像降晰算法及硬件实现,以达到南极天文站(AST3)对图像实时性和低功耗的要求。本文实现了一种基于传输触发体系结构(Transport Triggered
目前,P2P技术已经成为近年来互联网最热门的技术之一,它具有对等性高、健壮性好、负载均衡等优点,得到了广泛应用。但是,目前P2P的应用还存在一些问题,如P2P带宽滥用,P2P网络蠕虫传
进入21世纪以来,互联网的快速发展以及带宽的提升使得通过互联网获取各种对带宽要求较高的多媒体服务提供了可能。以往的单播方案,采取C/S模型,在特定的服务器和每位用户之间
本课题主要研究多媒体教学场景中的跟踪问题,以场景中授课教师为跟踪目标,要求实时录制教师授课情况。基于特定的应用场景,课题在单目标、单摄像头,且目标和摄像头都运动的情
随着信息化时代的不断推进,人们对信息化技术的依赖逐渐变大,游客的个性化需求增多,也更倾向于选择去信息化建设完善、能尽量满足他们个性化需求的景区。因此,为了增加景区的
随着互联网的发展,网络信息呈爆炸式的增长,如何快速有效的获取网络信息已成为一个重要的研究问题。文本摘要和关键词抽取技术正是在这样的一个背景下发展起来的,随着信息检