高速铁路安全文本大数据分析方法研究

来源 :中国铁道科学研究院 | 被引量 : 0次 | 上传用户:hujin68
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国是世界上高速铁路建设和运营规模最大的国家,同时也是外部环境和运营场景最复杂的国家,为保障高速铁路安全运营,已经形成了具有中国特色的超大规模、超强客货需求的路网运输组织和安全保障技术。随着高速铁路运营里程的积累,产生和存储了面向路网运营与安全的海量多源异构数据,这些数据承载了路网重要的安全信息,借助和运用大数据技术,挖掘高速铁路安全数据价值,全面了解高速铁路运营的安全状况、安全规律以及安全影响因素,采取科学有效措施预防和控制事故故障及其影响,是提升路网运输安全保障水平的必要途径。高速铁路安全涉及铁路各个专业,数据来源较多并且类型复杂,其中大量数据都是以文本、图像、音频等非结构化形式存储,以文本形式存储的高速铁路安全数据是非结构化数据的主要载体,许多研究学者对该类文本数据进行了研究,提出了很多具有借鉴价值的文本数据分析方法,但没有对安全文本数据进行系统的分析,存在数据分析零散、分析方法普适性不强的问题。本文围绕高速铁路安全文本数据,总结安全文本数据来源、特点及其分析价值,采用知识图谱构建与应用的方法实现安全文本数据的价值挖掘,针对高速铁路设备故障数据,提出了一系列文本分析方法构建故障诊断与处理知识图谱,并将理论与实践相结合,依托铁路数据服务平台构建高速铁路安全文本大数据平台,论文的主要工作包括:(1)基于深度学习集成的高速铁路设备故障分类方法。针对高速铁路设备故障文本数据特征,提出了组合加权集成方法将BiGRU和BiLSTM深度学习网络进行集成,采用ADASYN自适应综合过采样方法解决设备故障数据类别不均衡问题,构建了基于深度学习集成的高速铁路设备故障分类模型,实现了高速铁路设备故障自动分类。采用高速铁路2008-2018年的道岔设备故障数据进行实验,实验证明本文提出的基于深度学习集成的设备故障分类模型是一种分类性能较高的分类模型。(2)高速铁路设备故障命名实体与实体关系抽取方法。根据设备故障文本数据定义故障诊断与处理的命名实体与实体关系知识结构,采用BIOES标注方法统一标注命名实体与实体关系样本数据,提出了多维字符特征表示+BiLSTM+CRF的命名实体抽取方法,以及多维分词特征表示+Transformer的实体关系抽取方法,实现了设备故障文本数据中关键信息的自动抽取。采用高速铁路2008-2018年的道岔设备故障数据对模型进行实验验证,实验证明本文提出的命名实体与实体关系抽取方法均具有较高的精确度。(3)基于概念相似度计算的设备故障实体对齐方法。针对命名实体抽取方法抽取出来的设备故障命名实体存在冗余问题,提出了基于《知网》概念相似度计算的实体对齐方法,通过设备故障实体词汇抽取过程、概念相似度计算过程以及实体对齐过程,实现了设备故障冗余命名实体的去重与统一。采用设备故障命名实体进行方法验证,实验证明基于概念相似度计算的命名实体对齐方法能够有效解决设备故障命名实体冗余问题。(4)高速铁路安全文本大数据平台设计与实现。提出了高速铁路安全文本大数据平台的总体框架、技术架构以及功能架构,设计安全文本数据分析的业务流程以及模型的动态交互方式,实现了安全文本数据从样本标注、模型训练、应用分析为一体的智能化操作平台,并对平台的核心功能进行了展示,以构建信号设备故障诊断与处理知识图谱为案例,介绍了各设备故障文本分析方法在平台上的实现过程。平台现面向中国铁道科学研究院集团有限公司下属各单位应用,通过各专业科室对各自的高速铁路十年的安全文本数据分析,证明本文的研究成果能够切实有效的解决高速铁路安全文本数据分析问题。
其他文献
目的食品及环境中的生物毒素污染对人类健康、经济发展甚至社会安全构成潜在威胁并产生严重危害。其中,相思子毒素和金黄色葡萄球菌肠毒素B(SEB)致死剂量极低,还被列为“潜在生
细胞外囊泡(EVs)是指细胞内携带的大分子物质转运至细胞外发挥生物学功能的双层膜囊泡。EVs的释放和摄取是细胞间通讯的新机制,其分离纯化及内容物(主要组成物质)功能的研究是现代生物学领域一个热点问题。卵巢的重要功能是产生卵泡和维持卵泡发育、产生卵子。卵泡发生的过程涉及复杂的细胞间通讯和细胞代谢、细胞增殖,卵泡膜细胞、颗粒细胞和卵母细胞在整个卵泡生长和成熟过程中分泌多种细胞因子和蛋白因子,参与卵泡发
织金锦艺术有其特殊的历史地位,是元代政治经济文化的共同体现,是时代特点最明显的服饰体现。元代织金锦艺术的织造工艺技术、结构方法、图案色彩搭配对现今服饰产品设计方面
同位素电池技术在航天航空、深空探索中具有重要的应用意义。然而目前的同位素电池输出功率较低、辐照损伤效应较为严重,严重制约了其实际应用与发展。本文针对以上问题,提出
事件抽取是自然语言处理领域的一个研究热点,在网络舆情监控、突发事件告警、情报收集等领域有广泛应用。事件抽取可以分为元事件抽取和主题事件抽取两大类,本文主要研究元事
针对我国沼气工程中单一秸秆发酵产气效率低且不稳定、易酸化等问题,以农业废弃物中产生量较大的牛粪、玉米秸秆、小麦秸秆、水稻秸秆为厌氧发酵原料,发酵体系含固率为10%、发酵温度为35℃条件下,分别进行单一与混合厌氧发酵45天。分析了牛粪分别与三种秸秆混合厌氧发酵的产甲烷特性及发酵过程中的差异,并根据试验结果进行了经济效益分析,以期为实际沼气工程的运行提供理论参考。对秸秆单一发酵及牛粪分别与三种秸秆发酵
中文分词是自然语言处理一个关键而又底层的任务。在信息检索、信息摘录、自然语言理解、文本分类、机器翻译和文本校对等中文信息处理方面,都需要将中文分词作为其最基本模块。中文分词的质量直接影响后续中文信息处理的结果,因此如何高效准确的进行中文分词成为研究的重点。目前主要包含三类分词方法:基于词典的分词方法、基于统计的分词方法和基于深度学习的分词方法。基于词典的分词方法分词速度快,但是由于对词典有较强的依
东北地区是我国重要的粮食主产区之一。近年来,随着粮食需求的增大和饮食结构的改变,导致土地集约化程度过高,土地退化严重,土壤有机碳含量下降。土壤团聚体是土壤结构的最基
液密型防化服是保护从业人员免遭化学液体侵害的必要装备。国内外的研究主要集中在服装整体性能测试和防护材料性能测试等方面,对防化服的放松量和结构设计研究较少。传统的
乡村建设项目如何组织起来,是我国百余年乡村建设历史中持续关注的内容,更是我国“乡村振兴战略”提出以来所亟需解决的重要问题。改革开放四十年来,一方面我国农村日益成为市场化的一部分,在乡村建设中将市场作为资源配置的基本手段,发展地方经济的市场治理方式;另一方面又结合着“家国同构”的传统文化思想,以集体化的实践方式依托乡村建设项目提供地方公共服务,变革行政体制,建构村庄组织,构成一种新的国家治理模式。因