论文部分内容阅读
我国是世界上高速铁路建设和运营规模最大的国家,同时也是外部环境和运营场景最复杂的国家,为保障高速铁路安全运营,已经形成了具有中国特色的超大规模、超强客货需求的路网运输组织和安全保障技术。随着高速铁路运营里程的积累,产生和存储了面向路网运营与安全的海量多源异构数据,这些数据承载了路网重要的安全信息,借助和运用大数据技术,挖掘高速铁路安全数据价值,全面了解高速铁路运营的安全状况、安全规律以及安全影响因素,采取科学有效措施预防和控制事故故障及其影响,是提升路网运输安全保障水平的必要途径。高速铁路安全涉及铁路各个专业,数据来源较多并且类型复杂,其中大量数据都是以文本、图像、音频等非结构化形式存储,以文本形式存储的高速铁路安全数据是非结构化数据的主要载体,许多研究学者对该类文本数据进行了研究,提出了很多具有借鉴价值的文本数据分析方法,但没有对安全文本数据进行系统的分析,存在数据分析零散、分析方法普适性不强的问题。本文围绕高速铁路安全文本数据,总结安全文本数据来源、特点及其分析价值,采用知识图谱构建与应用的方法实现安全文本数据的价值挖掘,针对高速铁路设备故障数据,提出了一系列文本分析方法构建故障诊断与处理知识图谱,并将理论与实践相结合,依托铁路数据服务平台构建高速铁路安全文本大数据平台,论文的主要工作包括:(1)基于深度学习集成的高速铁路设备故障分类方法。针对高速铁路设备故障文本数据特征,提出了组合加权集成方法将BiGRU和BiLSTM深度学习网络进行集成,采用ADASYN自适应综合过采样方法解决设备故障数据类别不均衡问题,构建了基于深度学习集成的高速铁路设备故障分类模型,实现了高速铁路设备故障自动分类。采用高速铁路2008-2018年的道岔设备故障数据进行实验,实验证明本文提出的基于深度学习集成的设备故障分类模型是一种分类性能较高的分类模型。(2)高速铁路设备故障命名实体与实体关系抽取方法。根据设备故障文本数据定义故障诊断与处理的命名实体与实体关系知识结构,采用BIOES标注方法统一标注命名实体与实体关系样本数据,提出了多维字符特征表示+BiLSTM+CRF的命名实体抽取方法,以及多维分词特征表示+Transformer的实体关系抽取方法,实现了设备故障文本数据中关键信息的自动抽取。采用高速铁路2008-2018年的道岔设备故障数据对模型进行实验验证,实验证明本文提出的命名实体与实体关系抽取方法均具有较高的精确度。(3)基于概念相似度计算的设备故障实体对齐方法。针对命名实体抽取方法抽取出来的设备故障命名实体存在冗余问题,提出了基于《知网》概念相似度计算的实体对齐方法,通过设备故障实体词汇抽取过程、概念相似度计算过程以及实体对齐过程,实现了设备故障冗余命名实体的去重与统一。采用设备故障命名实体进行方法验证,实验证明基于概念相似度计算的命名实体对齐方法能够有效解决设备故障命名实体冗余问题。(4)高速铁路安全文本大数据平台设计与实现。提出了高速铁路安全文本大数据平台的总体框架、技术架构以及功能架构,设计安全文本数据分析的业务流程以及模型的动态交互方式,实现了安全文本数据从样本标注、模型训练、应用分析为一体的智能化操作平台,并对平台的核心功能进行了展示,以构建信号设备故障诊断与处理知识图谱为案例,介绍了各设备故障文本分析方法在平台上的实现过程。平台现面向中国铁道科学研究院集团有限公司下属各单位应用,通过各专业科室对各自的高速铁路十年的安全文本数据分析,证明本文的研究成果能够切实有效的解决高速铁路安全文本数据分析问题。