基于深度学习和主题建模的事件发现研究与应用

来源 :青岛大学 | 被引量 : 0次 | 上传用户:yudalong880210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今互联网的高速发展,催生了众多的网络应用,同时高速的网络发展带来巨大的新闻数据量。与此同时,大数据量也给政府组织及其其他组织带来了在大数据背景下事件建模相关技术限制,无法快速的从海量的数据中获取新闻事件相关知识,难以实现数据的互通共享,因此如何对非结构化新闻文本进行有效整理变得十分重要。针对以上问题,本文针对非结构化文本,提出了基于深度学习和主题建模的事件建模众包学习方法,对非结构化新闻文本进行事件建模研究并从数据获取、新事件发现、多特征融合的新事件主题提取、应用系统构建等角度对研究进行充分阐述。本文主要进行基于深度学习和主题建模的新事件发现研究与应用,通过多种技术的研究应用到新闻事件建模领域,用以实现政府组织及其他组织对非结构化新闻文本的充分利用。首先,基于整体研究的需求分析,分析要获取的相关数据,研究构建基于Scrapy框架的数据爬虫系统进行数据获取;然后,对获取的数据进行初步的整理,研究非结构化文本的量化方法,提出基于BERT、注意力机制的双向长短记忆网络构建新事件发现模型;其次,对于新事件发现模型检测出的新事件,提出基于多特征融合的新事件主题聚类分析用以提取新事件主题,多特征融合包括实体特征、事件触发词特征、主题热词特征。对于主题提取的结果集加入到新事件发现模型实现新事件发现模型的不断学习更新的众包学习的方法;最后,研究采用NoSQL数据库作为事件存储解决方案在提高效率的同时也克服了传统存储解决方案的缺点,并在数据获取、新事件发现、新事件主题建模分析研究基础上研究开发事件建模应用系统实现对上述研究的系统化应用。本文从政府组织角度出发,以非结构化数据为基础从数据获取、新事件发现、新事件主题建模分析、事件建模应用系统构建等方面充分阐述了基于深度学习和主题建模的事件发现研究与应用的研究过程。基于上述研究突破了事件建模的技术障碍,构建了适合政府治理新模式的建模分析算法与分析方法,对于政府及其其他组织在大数据背景下分析热点事件具有重大意义。
其他文献
网络隐写主要利用冗余字段及协议规则设定漏洞来进行秘密信息传输,具有动态性以及更强的隐蔽性。网络隐写分析针对网络环境中基于网络协议的隐写进行合规性检测,以识别并破坏
自出现可传递的信息,人们为了保护重要的信息而不断发挥聪明才智,因此衍生出为隐秘传递信息的密码学等相关性学科。随着物联网、终端机的智能互联,越来越多的信息集聚在云端,
激光等离子体已被广泛应用于EUV光源、水窗生物成像、激光诱导击穿光谱、激光离子源、激光脉冲沉积等诸多领域。激光等离子体状态诊断技术的研究对上述领域的技术发展和应用
软件老化是指在长时间运行的软件系统上,由于内存泄漏、碎片问题、数值累计错误等原因而产生的软件状态异常、性能下降、系统宕机甚至失效的现象。随着云计算技术的不断发展,
兴蒙造山带属于中亚造山带的一部分,古生代经历了复杂的洋壳俯冲和微陆块碰撞拼合作用,发生了广泛的构造-岩浆活动,形成了多条缝合带,贺根山缝合带是其中一条极为重要的缝合
近年来,服务机器人已经逐渐在各领域被应用,作为服务于人类的人工智能理应在教育行业有所应用,因此教育中的服务机器人要起到助理的作用。本文结合实际工作环境需要,系统研究
智能制造为我国由制造大国向制造强国的转变提供了新的契机,是未来制造业的发展趋势。构建生产单元互联互通、管理决策智能化的智能工厂,是实现生产服务智能化、高效化和个性
本论文以研究氧化锌基中本征晶界和纳米界面为主,结合实验结果及物理模型,以界面热阻6)和有效电子势垒高度(-)为出发点,从定性和定量的角度讨论了晶界及纳米界面对热学、电学输
异构网(heterogeneous networks,HetNets)是5G网络的关键技术之一,在提高系统容量的同时缓解了热点区域数据业务激增的问题。但是,随着上行数据流量的暴增HetNets也迎来了新
近年来,基于角色的访问控制(Control Access based-Role,RBAC)凭借其自身优势已迅速成为一种流行且有效的访问控制方式。不同于传统访问控制用户直接获取权限的方式,在RBAC中