论文部分内容阅读
微博等社交媒体日益普及化为灾害应急提供了新思路。灾害应急任务离不开数据的支持,微博凭借自身优势搭建了一座灾区内与灾区外信息沟通的桥梁,其已经成为灾害事件中灾害信息及时获取的重要来源之一,然而微博数据非结构化且更新速度快的特征导致这些信息难以被充分利用。因此,如何从非结构化微博数据中快速聚合出灾害优势信息以辅助灾害应急决策是当前亟待解决的问题。本文针对当前微博信息聚合在灾害领域应用较少且现有微博信息聚合方法对微博信息利用不全面等现状,围绕聚合粒度以及聚合内容丰富度两个关键问题,提出了一种基于LDA的微博灾害信息聚合方法,研究内容主要包括:(1)研究了微博数据预处理方法。针对现有文本预处理方法没有考虑灾害特征导致预处理之后的微博数据并不能满足本文聚合需求问题,本文在现有方法基础上,结合灾害领域知识,制定了合适的微博数据预处理方案。(2)研究了基于LDA的灾害主题模型构建方法。从微博灾害信息聚合快速且尽可能全面的聚合需求出发,总结了模型参数估计方法的三项原则,即高辨识度、高主题差异度、低时间复杂度,并通过实验分析确定Gibbs采样作为主题模型的参数估计方法。(3)研究了微博灾害信息聚合方法。梳理了微博灾害信息聚合流程,围绕信息聚合粒度,从渐进求精地微博数据聚合研究到灾害信息聚合研究,逐步聚合出时空分布信息以及主题特征信息,最后,研究了聚合信息的可视化方法,以便信息直观显示。(4)设计并开发了信息聚合平台。在研究该平台所需的关键方法的条件下,通过编程语言将其付诸实践,并以2017年8月20日发生的天鸽台风为例,验证本文方法的可行性。研究结果表明,本文方法能够通过灾害关键词及时间从海量微博数据中聚合出该灾害事件相关的微博数据,减小了非相关数据等的干扰;通过对文本进行地名实体识别及词频分析,得到的省级别空间分布信息,有效地反映了灾害空间分布以及受灾程度,验证了文本数据挖掘空间分布的可行性;而灾害主题特征聚合信息,通过主题河流图,直观地展示了灾害发生过程中各个有效主题的发展趋势。本文较全面地聚合出了微博中的灾害优势信息,为灾害应急工作提供了极大决策支持。但是本文的方法仍有不足之处,在今后需要进一步探讨。