论文部分内容阅读
近年来,各领域中突发事件的频繁发生,无论是自然灾害事件或是社会人为事件都对人们的日常生活和心理上带来了巨大的影响。而随着互联网新兴社交媒体的出现并快速发展,微博这种以用户和用户之间的交互关系为核心的分布式社交媒体,使得信息的传播变得更加快速和广泛,同时拥有更丰富以及更多元的资源供我们挖掘和探索。如何在海量的微博动态数据中及时准确地检测出突发事件,逐渐成为微博领域的研究热点和核心,可以及时地发现突发性社会安全事件,对社会的稳定和公众的利益有着重要的影响和现实意义。本文把微博突发事件检测问题划分为基于突发词的事件检测问题和基于实体特征的事件检测问题。从不同的角度对微博数据进行特征分析和提取,最后通过相似度计算对两种方法的检测结果从时间维度和内容维度进行融合。在算法准确性以及执行效率上有所突破,从而便于相关决策者及时采取相应的应对措施,进行及时的网络监测和舆论引导,尽可能减少突发事件给社会带来的危害和影响。本文的主要研究工作及成果如下:(1)基于多突发特征的突发词提取方法研究提出了一种基于多突发特征的突发词提取方法。该方法根据时间信息对微博数据进行时间切片,对每一个时间窗口内的数据分别计算各个词语的词频特征、话题标签特征和词频增长特征,然后基于D-S证据理论和层次分析法,对各个特征的权重进行融合,最后根据特征融合之后的大小挑选出具有突发特征的词集。(2)基于突发词聚类的事件检测方法研究提出了一种基于突发特征词的事件检测方法。该方法利用突发词集合中词语的共现度和互信息计算突发词之间的耦合度,并构建相应的耦合度矩阵。将突发词耦合度矩阵作为凝聚式层次聚类算法的输入,生成一棵由突发词为叶子节点的二叉树。最终采用内部相似度的二叉树剪枝算法对聚类结果进行划分,即可得到对应时间窗口所发生的突发事件以及突发词集。(3)基于动态时间窗口的突发实体提取方法研究提出了一种基于动态划分时间窗口的突发实体检测方法。该方法不需要对微博数据进行分词,而是将其中的汉字、英文单词看作单个实体。通过“微博消息窗与动态时间窗相照应”算法,将微博消息窗中的实体划分到相应的动态时间窗中去,并对当前时间窗和历史时间窗中相关实体的偏移量特征和影响力特征进行综合比较,依据时间的衰减特性可以计算出相关实体的突发特征权重,进而提取出具有突发特征的实体集合。(4)基于突发实体融合的事件检测方法研究提出了一种基于突发实体扩充的事件检测组合聚类方法。该方法通过对突发实体构建实体-消息矩阵和消息-用户矩阵,利用实体、微博用户与微博文本之间的关系进行组合聚类,以便对突发实体进行划分。最后在聚类结果中将簇内实体基于互信息与左右熵合成为单词或字符串短语,实现基于实体特征融合的事件检测。(5)基于相似度计算的事件融合方法及其微博映射研究提出了一种相似事件的融合方法。该方法的主要功能是对基于突发词的事件检测结果和基于实体特征的事件检测结果进行融合。包括时间维度的融合和内容维度的融合两部分。然后基于融合后的突发事件,利用相似度的映射方法,抽取与事件最为相关的微博消息作为对事件的详细补充描述。最后,实现了一个基于多特征融合的微博突发事件检测系统。系统由微博数据获取与预处理、基于突发词的事件检测、基于实体特征的事件检测以及相似事件融合四个模块构成。可以自动对微博数据预处理、特征抽取和特征融合相关算法进行实验和可视化展示。