基于LDA的微博灾害信息聚合

来源 :武汉大学 | 被引量 : 9次 | 上传用户:linxuekai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博等社交媒体日益普及化为灾害应急提供了新思路。灾害应急任务离不开数据的支持,微博凭借自身优势搭建了一座灾区内与灾区外信息沟通的桥梁,其已经成为灾害事件中灾害信息及时获取的重要来源之一,然而微博数据非结构化且更新速度快的特征导致这些信息难以被充分利用。因此,如何从非结构化微博数据中快速聚合出灾害优势信息以辅助灾害应急决策是当前亟待解决的问题。本文针对当前微博信息聚合在灾害领域应用较少且现有微博信息聚合方法对微博信息利用不全面等现状,围绕聚合粒度以及聚合内容丰富度两个关键问题,提出了一种基于LDA的微博灾害信息聚合方法,研究内容主要包括:(1)研究了微博数据预处理方法。针对现有文本预处理方法没有考虑灾害特征导致预处理之后的微博数据并不能满足本文聚合需求问题,本文在现有方法基础上,结合灾害领域知识,制定了合适的微博数据预处理方案。(2)研究了基于LDA的灾害主题模型构建方法。从微博灾害信息聚合快速且尽可能全面的聚合需求出发,总结了模型参数估计方法的三项原则,即高辨识度、高主题差异度、低时间复杂度,并通过实验分析确定Gibbs采样作为主题模型的参数估计方法。(3)研究了微博灾害信息聚合方法。梳理了微博灾害信息聚合流程,围绕信息聚合粒度,从渐进求精地微博数据聚合研究到灾害信息聚合研究,逐步聚合出时空分布信息以及主题特征信息,最后,研究了聚合信息的可视化方法,以便信息直观显示。(4)设计并开发了信息聚合平台。在研究该平台所需的关键方法的条件下,通过编程语言将其付诸实践,并以2017年8月20日发生的天鸽台风为例,验证本文方法的可行性。研究结果表明,本文方法能够通过灾害关键词及时间从海量微博数据中聚合出该灾害事件相关的微博数据,减小了非相关数据等的干扰;通过对文本进行地名实体识别及词频分析,得到的省级别空间分布信息,有效地反映了灾害空间分布以及受灾程度,验证了文本数据挖掘空间分布的可行性;而灾害主题特征聚合信息,通过主题河流图,直观地展示了灾害发生过程中各个有效主题的发展趋势。本文较全面地聚合出了微博中的灾害优势信息,为灾害应急工作提供了极大决策支持。但是本文的方法仍有不足之处,在今后需要进一步探讨。
其他文献
当前,脱贫攻坚战已经进入决胜阶段,农村精准扶贫工作在实践中扎实展开,并取得了一定的成功经验。文章以辽宁省建昌县为例,从农业、旅游、教育培训、金融、电子商务等多方面提
阅读是英语学科的教学重点,更是教学难点,教师要合理激发学生的阅读兴趣,加强对学生阅读情感的培养,从而提升学生的自主阅读能力。本文以英语阅读教学为研究对象,分析了当前
小鹅瘟是由小鹅瘟病毒引起的雏鹅急性败血性传染病,主要侵害雏鹅,发病快、死亡率高,已成为目前危害养鹅业的重要疫病之一.
The professionalism of real estate development makes the decision-making environment of development relatively complicated.Building the decision model can help
<正>随着"大数据"时代的来临,社会保障工作将呈现出各种数字化的"面相"和内容。换言之,大数据时代将给社保工作带来新的机遇和挑战。我们的社保工作者要认清数据的重要价值,
为了查明小麦胚乳淀粉粒是单粒淀粉还是复粒淀粉,利用电子显微镜技术系统观察了小麦胚乳发育过程中淀粉粒的发育过程。结果表明,大淀粉粒在胚乳发育早期发生与发育,包含大淀粉粒