基于自然语言处理技术的建筑工程安全事故风险研究

来源 :苏州科技大学 | 被引量 : 0次 | 上传用户:zhaochunguang741
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长期以来,建筑工程中安全事故频繁发生所导致的人员伤亡和财产损失,受到国家和社会的广泛关注。为了防止类似事故的发生,在每次事故发生后会形成事故调查报告,通过从历史事故中总结经验教训,从而制定安全管理策略和防范措施用于预防未来的风险发生。而以往对事故的分析研究依赖于专家利用专业知识进行人工分析,这使得分析结果很容易受到人的主观影响。同时,随着事故报告数据量的不断增加,人工分析耗时耗力,已经无法满足需求。因此,采用自动化的方法分析建筑工程安全事故对安全管理至关重要。面对这些通常以非结构化或半结构化形式存在的事故报告,当前研究普遍使用浅层机器学习结合手工提取文本中词语、句法和语义特征的方法,存在学习性能差以及信息抽取精确率不足的问题。针对上述问题,本文基于自然语言处理技术,开展事故类型与风险因素自动抽取的模型研究,并将其用于安全风险分析。具体研究内容如下:(1)针对事故报告中长距离词语之间依赖信息无法捕捉的问题,提出一种基于图神经网络的文本分类算法,用于从报告中抽取事故类型。首先,根据事故报告中词语共现关系,将序列化文本转化为图结构数据;然后,利用LSTM网络将词语节点与周围邻居节点进行信息交互,通过设置多层LSTM实现高阶邻居节点的信息捕捉;最后,通过注意力机制将词语节点信息聚合为整个报告的图表示用于分类。在所构建的篇章级文本分类数据集上进行实验,获得92%的平均F1值,验证了我们所提算法的有效性。(2)针对现有方法无法有效提取建筑事故报告中风险因素的问题,提出一种结合多层次神经网络与启发式规则的模型,实现事故报告中风险因素的抽取。首先,使用预训练语言模型BERT获得文本的字符级向量表示;然后,使用CNN与BILSTM,分别提取上下文的局部与全局特征信息;接着利用CRF学习标签之间的依存关系,完成文本中的风险实体抽取;最后,在此基础上根据7种启发式规则提取事故报告中风险因素。在所构建的句子级实体标注数据集上进行实验,模型在风险实体和因素抽取任务上分别获得了91.4%和86%的F1值性能,表明该模型具有较好竞争性。(3)面向建筑施工安全管理需求,基于上述事故类型与风险因素抽取结果进行关联分析,构建了一种建筑安全事故风险分析系统。根据输入的不同,系统主要实现风险分析与数据库更新功能。其中,风险分析功能根据输入的隐患排查文本,给出可能导致事故发生的已知风险因素、潜在风险因素以及事故类型;数据库更新功能根据输入的事故报告集,对关联规则库自动更新。通过对搜集到的事故报告数据集提取事故类型与风险因素,并对两者关联分析后,得到256条关联规则。相关测试表明,所构建系统可以满足实际应用需求。本文结合自然语言处理技术面向建筑工程安全管理环境下的实际需求,有效改善了事故风险分析中信息抽取困难以及精确率不足问题。测试结果表明对安全事故报告中事故类型以及风险因素的抽取效果均有一定程度上提升,为建筑工程安全管理领域提供有效的帮助。
其他文献
数据驱动下的强化学习已经得到迅猛的发展,特别是在一些能生成大量样本数据的场景中,甚至达到超人类水平(如,围棋、雅达利游戏)。但这些成果都只是某一智能体于特定任务的表现。智能体表现出的对数据的贪婪性和对任务间较差的泛化性,是现今人工智能技术发展的主要瓶颈。小样本强化学习以加快学习进程、降低样本复杂度为目的,使强化学习能在采样困难、昂贵的场景中加以推广。在方法论上,小样本强化学习主要通过泛化经验中的知
学位
从必须报告的禽流感定义出发,解析了该类禽病的监测、控制策略,针对我国当前的疾病流行情况,对H5和H7亚型禽流感的发生与防控策略进行了总结。
期刊
多智能体系统近年来被广泛运用于各类行业,包括民用方面和军事方面,其分布式控制也是越发受到关注。其中,作为多智能体系统分布式控制领域的基本问题之一,一致性问题在该领域也扮演了一个不可或缺的角色。本文主要研究在某些系统状态不可测的前提条件下的几类多智能体系统,通过为这些智能体设计观测器,用观测值代替真实值来设计一致性协议,实现各智能体之间的状态一致性。本文的工作主要分为以下三个部分。1.针对同时含有未
学位
人口数据能反映一个国家或地区的人口在地理空间中的分布,也是反映社会经济发展和城市建设状况的重要数据源。传统的人口数据通常以人口普查和抽样调查的方式统计获得,存在时效性差、难以与其他地理空间数据融合等局限。人口数据空间化方法是实现人口空间分布模拟的有效方法,能得到的更高时间和空间分辨率的人口数据。然而此类方法在模拟人口空间分布时采用“自上而下”的建模思路,模拟得到的结果难以反映“自下而上”微观个体行
学位
命名实体识别是自然语言处理领域的核心任务,是机器问答、信息检索等任务的基础性工作;其最核心的目标是从非结构文本中寻找、识别和分类相关实体。当前命名实体识别在英文上已经取得了巨大的成功,但在中文领域上的研究进展远落后于英文;尤其是面向一些专业领域,如电子医疗病历实体识别等,中文命名实体识别的研究还有待进一步提高。在通用数据集上,中文相较于英文有着更为复杂的语法结构且字词之间无空格来分割,因此存在边界
学位
目的:观察温经汤配合腕踝针治疗寒凝血瘀型痛经的疗效。方法:选取本院就诊的寒凝血瘀型痛经患者60例,随机分为治疗组及对照组各30例。治疗组用温经汤配合腕踝针治疗,对照组用西药治疗。结果:治疗组痛经缓解优于对照组(P<0.05),且用药后痛经症状积分低于对照组(P<0.05)。治疗组总有效率高于对照组(P<0.05)。结论:温经汤配合腕踝针治疗寒凝血瘀型痛经能缓解临床症状,且维持疗效时间更持久。
期刊
姿势迁移的图像生成技术旨在将给定的源人物姿势转换为设定的目标姿势,同时,保持生成人物图像的外观及服装纹理与源人物的尽可能一致。人物姿势的表示是姿势迁移研究中的核心问题。目前使用较为广泛的是基于人体关键点的二维姿势表示,该方式的优点在于获取方便,可通过已经成熟的姿势估计算法直接通过对源人物图像计算得到准确的姿势关键点。其他方法如基于3D表示的人物姿势由于获取困难,使其应用场景十分受限。然而,使用二维
学位
时间序列是按时间刻度有序并且互相关联的数据序列,数据特征随时间具有一定的变化规律。时间序列预测已经在商业、环境、医学、工业等各个领域得到了广泛的关注。实现准确的预测对节约资源、提高效率、减少成本、优化配置等方面都具有重要的作用。时间序列预测方法是根据历史的时间序列数据、相关特征等推算未来观测值的手段。目前时间序列数据预测的方法以深度学习模型为主,虽然取得了很多研究成果,但是在时间序列数据的预处理、
学位
是自然语言处理领域中一个重要的任务。随着深度学习技术的发展,相比于短文本摘要技术,长文本摘要发展缓慢。一方面缺乏可用的大规模数据集;另一方面,当文本序列过长时会产生长距离依赖问题。针对上述问题,本文基于深度神经网络技术,开展长文本摘要建模方法研究。本文从以下四个方面对长文本自动摘要任务展开研究:(1)针对当前中文长文本数据集缺乏的问题,本文采用中文专利数据构建了一个大型的专利数据集。该数据集在关键
学位
随着新一代信息技术、大数据理论与实践的高速发展,智慧城市的范围不断扩大、范畴不断延伸、智能化的水平不断提高。智慧城市建设中地址的数字化、精细化、智能化管理成为各种政务管理、金融机构、市场应用重要基础数据,也是实现应用目标、提升应用能力的必要数据。但是,由于我国地址规划建设起步相对较晚,传统建筑地址采集方式落后且缺少统一的规范策略,造成各行各业既有的建筑地址信息数据难以准确匹配,难以给上层的地理信息
学位