论文部分内容阅读
当今互联网的高速发展,催生了众多的网络应用,同时高速的网络发展带来巨大的新闻数据量。与此同时,大数据量也给政府组织及其其他组织带来了在大数据背景下事件建模相关技术限制,无法快速的从海量的数据中获取新闻事件相关知识,难以实现数据的互通共享,因此如何对非结构化新闻文本进行有效整理变得十分重要。针对以上问题,本文针对非结构化文本,提出了基于深度学习和主题建模的事件建模众包学习方法,对非结构化新闻文本进行事件建模研究并从数据获取、新事件发现、多特征融合的新事件主题提取、应用系统构建等角度对研究进行充分阐述。本文主要进行基于深度学习和主题建模的新事件发现研究与应用,通过多种技术的研究应用到新闻事件建模领域,用以实现政府组织及其他组织对非结构化新闻文本的充分利用。首先,基于整体研究的需求分析,分析要获取的相关数据,研究构建基于Scrapy框架的数据爬虫系统进行数据获取;然后,对获取的数据进行初步的整理,研究非结构化文本的量化方法,提出基于BERT、注意力机制的双向长短记忆网络构建新事件发现模型;其次,对于新事件发现模型检测出的新事件,提出基于多特征融合的新事件主题聚类分析用以提取新事件主题,多特征融合包括实体特征、事件触发词特征、主题热词特征。对于主题提取的结果集加入到新事件发现模型实现新事件发现模型的不断学习更新的众包学习的方法;最后,研究采用NoSQL数据库作为事件存储解决方案在提高效率的同时也克服了传统存储解决方案的缺点,并在数据获取、新事件发现、新事件主题建模分析研究基础上研究开发事件建模应用系统实现对上述研究的系统化应用。本文从政府组织角度出发,以非结构化数据为基础从数据获取、新事件发现、新事件主题建模分析、事件建模应用系统构建等方面充分阐述了基于深度学习和主题建模的事件发现研究与应用的研究过程。基于上述研究突破了事件建模的技术障碍,构建了适合政府治理新模式的建模分析算法与分析方法,对于政府及其其他组织在大数据背景下分析热点事件具有重大意义。