论文部分内容阅读
随着互联网的快速发展,网络媒体应运而生,传统媒体公司也随之建立了新闻发布网站。网络传播的快捷性、互动性、开放性等特点使得民众可以快速关注网络上的热点事件,发表看法、参与讨论。随着民众的关注,负面热点事件的事件破坏力可能会对社会的和谐造成不好的影响,因此,在热点事件的萌芽阶段及时发现热点事件并采取适当的措施进行处理,是热点事件下一步的研究方向。目前的热点事件发现方法主要是通过文本处理的方法对网络上的信息进行归类,然后对每一类事件进行热度分析。这类方法属于事后分析,如果能在事件的萌芽阶段发现并及时处理该事件就能有效降低影响。因此,本文研究的目标是在事件的萌芽阶段分析事件的热度,判断其是否会成为热点事件。新的事件刚产生时,事件的报道数量、评论数、点击率等都很少,通过热度计算公式不能判断其是否会成为热点事件。分析热点事件的特点,发现有很多与热点事件相关的事件在过去发生过。这说明热点事件之间相互关联,因此可通过已经发生的热点事件分析当前事件的热度。本文首先提出事件语义指纹的概念描述事件,事件的语义指纹分为主体、主题、时间、地点四部分,从这四部分描述一个事件。事件的主体、时间、地点等属于命名实体,可通过命名实体识别技术得到,根据每部分的特点,分别计算它们的贡献度;事件的主题主要描述事件的内容,通过柯式复杂性理论和共词矩阵得到最能代表事件的相关特征词作为事件的主题。事件的语义指纹根据事件每个方面的特点来描述一个事件,比传统的文本向量表示事件的方法更加完善。然后基于事件的语义指纹计算两个事件的相关度,建立关联事件图,分析图中每个事件的热度,依据PageRank算法的思想得到每个事件的重要性,计算事件的热度向量与事件的重要性向量的乘积,得到当前事件的热度。分别计算事件的语义指纹的四个方面的关联度来得到事件之间的关联度,以事件关联度为边的权重,建立权重矩阵,迭代计算事件关联图中事件的重要性,当收敛时得到关联图中每个事件的重要性。最后将事件的语义指纹与TF-IDF、BM25等方法在检索模型里作对比,发现事件的语义指纹能更好的表示一个事件,将事件关联图模型计算得到的事件的热度与实际热度进行比较,热度预测效果很好,说明了基于事件关联方法的有效性。