论文部分内容阅读
摘 要:在计算机技术飞速发展的大数据时代背景下,运用数据挖掘的方法对庞大的轨道检测数据分析并观测其变化是提高检测效率的重要手段。本文基于K-means算法对检测数据进行聚类挖掘对铁路轨道质量进行预测和评判,为线路日常维修提供依据。
关键词:数据挖掘;K-means算法;聚类挖掘
我国既有铁路营业线总里程不断增加,安全风险也随之增加,维修天窗时间短,检测任务繁重。针对铁路轨道设备病害的实时监控主要依靠车载信息、人工添乘信息以及轨检车数据信息。月度轨检车检测数据、便携式添乘仪和车载信息,以及日常人工巡检数据汇集成了一个多层次,多架构的轨道检测数据体系。
每月数次的轨检车数据,也仅仅作为日常查寻病害的工具,通过轨检车波形图幅查找水平加速度和垂向加速大值信息及晃车的原因。人工分析工作量大,效率低,出错率高已经不能满足生产的需要,轨检车数据并未充分利用,导致大量有价值的信息浪费。为了寻找这些不同种类数据间的关联性,从而得到更有价值的关联信息,对指导日常维修,合理安排大修具有重要的意义。通过运用数据挖掘技术,选择有效的算法,对数据进行聚类挖掘,找到参数间的相关性,并对线路设备现状客观地评估和预测。并以此作为依据,合理分配大中修资源,节约过度维修产生的成本。
一、数据挖掘系统
数据挖掘技术吸取信息科学、统计学、人工智能、可视化、机器学习、数据库、模式识别、神经网络、图像与信号处理、空间数据分析等众多领域的精髓并对目标原始数据进行计算、延展、创新,对决策具有可靠的指导意义。根据基于计算机运算、编程软件平台,利用新算法从数据中获得、吸取、理解隐藏在大数据背后复杂的、信息丰富的、有价值的信息。数据挖掘包含的学科中,统计学和机器学习是其中两门重要的学科,其中统计学源于数学,它强调数学逻辑的严密性。而机器学习更偏向于人工智能,找出数据间的共性,不断归纳,不断完善的过程。传统意义上讲,数据挖掘分为两类:预测性数据挖掘和描述性数据挖掘。预测性数据挖掘是生成已知数据集描述系统模型,而描述性数据挖掘是在可用数据集的基础上生成新的、有价值的信息。
有效的数据讲究时效性,对未知事物的预测建立在时间的坐标轴上,时间序列的特征是数据集中数据之间存在着时间上的关系,时间是时间序列的关键属性,时间序列数据挖掘是预测性数据挖掘最重要的分支,数据挖掘的方法和算法都可以应用在时间序列数据挖掘上,不同的是必须考虑数据集中数据间存在的时间关系。根据普速铁路线路修理规程中的有关规定,铁路线路大中修周期按照规定的线路累计通过总重确定,并可根据各线条件的实际设备状况,线路条件、运输条件和自然条件等具体情况调整。
数据挖掘的核心在于算法,基于不同的数据挖掘方法相关的算法更是多达十余种。其中聚类方法包括K-means和BIRCH等算法;选取不同的算法,往往会得到不同的结果,下面集合铁路轨道检测数据,运用聚类挖掘K-means算法对线路状态进行预测。
二、运用K-Means算法对轨道不平顺原始数据进行挖掘
铁路轨道合理的外形尺寸与平顺的几何线形是保障列车安全运行的重要前提,在轨道投入运营后,钢轨表面长期承受轮轴动力的反复作用,路基或地面可能产生区域性沉降从而引发轨道累积变形,需定期检测轨道静态几何状态的稳定性。以京广线安阳至郑州段线路为例,国家I级铁路,60kg/m温度应力式无缝线路,混凝土枕,碎石道床,养护标准为vmax≤ 160km/h,每年该段线路线捣、线磨、覆盖一遍,因此钢轨使用周期得到延长。在动态检测方面,轨检车数据存在着很大的离散性,从整体分析,线路质量状况随着时间的不同发生着变化,变化的快慢和幅度,也随着时间节点的不同而改变。同一地点的轨道几何及动力学参数存在关联特性,所以对该段的检测数据采集,时间节点的选取尤为重要。有砟道床状态不易保持,维修周期较短,线路变化明显,观测数据有限并不能得到理想的预测结果,但是高速铁路“严检慎修”的特点对高速铁路轨道的扰动较小,对长期采集数据加以分析,效果较好。
轨道结构动态检测每个月上下旬分别检查两次,历次检测数据构成轨道不平顺性时间序列数据,在轨道状态检测过程中,沿列车运行方向每隔0.25m取检测实时数据,检测项目有:轨距、水平、左高低、右高低、左轨向、右轨向、三角坑七个基本分项指标,长短波不平顺、轨距变化率和曲率变化率暂且不考虑。就某一单项指标随时间变化而变化可以看作一元时间序列数据。如果将这七个基本检测指标作为某一测点集合状态的七个维度,那么所形成的时间序列数据就形成了多元时间系列数据,因此轨道不平顺序列数据是一种多元时间序列数据,属于一种在时间上的离散数据。
根据2015年9月该段线路大修后到现在经历50次轨检车的检测数据,对波形图进行统计,以横轴为检测基本项目,纵轴为检测时间,竖轴为检测幅值大小。
京广线下行K519+000-K520+000区段4000个点在在2014年4月至2016年12月两年多时间,50次轨检车检测数据进行聚类分析,运用K-Means算法数据矩阵中对象之间的距离采用相互相关距离,变量间链接采用最小方差算法。这种分析并不能得到清晰的结果,所以改變思路从分析数据着手进行模式分析,其中分析数据包括统计分析数据和转换分析数据。将目标公里分割成40个小单元区段,对每个小单元标准差变化情况进行分析。40个单元段50次检测数据水平标准差按照所观测的时间长短进行统计,本文以水平参数为例,将数据进行依次统计数据在250天以前离散性较大,据资料查询线路在250天左右进行了大机清筛道床,大机捣固作业,使得线路状态较为稳定。
通过计算分析可以发现各区段轨道水平不平顺性标准差值随时间变化呈现差异性趋势,在这个差异周期内标准差呈上升趋势。根据上述已经划分好的40个单元段采用K-Means算法,数据矩阵中对象之间的距离采用互相关距离,变量之间链接采用最小方差法,从而得到聚类结果
由聚类结果的水平标准差可以发现,各单元段轨道状态变化呈现重复性趋势,各聚类中心将各单元段轨道状态变化特点进行划分。相对而言第四种聚类方式,能更加直观地反映出线路维修带来的离散差异性,在聚类结果图中曲线在某个周期间发生骤降。由于轨道在大机维修作业期间对存在不平顺超过限值的单元段会随时进行临修作业,因此个别单元轨段不平顺状态会出现区别于整个研究区段整体变化的特征,而整体上呈现的是分阶段上升变化的趋势特征。
三、总结
本文介绍了基于K-means算法分析轨道在正常使用期间的变化情况,发现轨道不平顺性变化周期性与周期内的恶化趋势,通过对数据挖掘概念及算法的研究,对轨道不平顺时间序列数据进行聚类分析,发现轨道不平顺时间序列变化的特征,并通过轨道不平顺数据挖掘实例中基于原始数据聚类和标准差数据聚类对轨道不平顺时间序列聚类结果进行对比分析,通过这种方法可以简单预测轨道结构状态变化,从而合理安排维修。
参考文献:
[1]中华人民共和国铁道部.铁运【2016】146号.铁路线路修理规范[M].北京:中国铁道出版社,2017.
[2]WISHART D.K-means clustering with outlier detection[A],Munich: University of Munich,2001.
关键词:数据挖掘;K-means算法;聚类挖掘
我国既有铁路营业线总里程不断增加,安全风险也随之增加,维修天窗时间短,检测任务繁重。针对铁路轨道设备病害的实时监控主要依靠车载信息、人工添乘信息以及轨检车数据信息。月度轨检车检测数据、便携式添乘仪和车载信息,以及日常人工巡检数据汇集成了一个多层次,多架构的轨道检测数据体系。
每月数次的轨检车数据,也仅仅作为日常查寻病害的工具,通过轨检车波形图幅查找水平加速度和垂向加速大值信息及晃车的原因。人工分析工作量大,效率低,出错率高已经不能满足生产的需要,轨检车数据并未充分利用,导致大量有价值的信息浪费。为了寻找这些不同种类数据间的关联性,从而得到更有价值的关联信息,对指导日常维修,合理安排大修具有重要的意义。通过运用数据挖掘技术,选择有效的算法,对数据进行聚类挖掘,找到参数间的相关性,并对线路设备现状客观地评估和预测。并以此作为依据,合理分配大中修资源,节约过度维修产生的成本。
一、数据挖掘系统
数据挖掘技术吸取信息科学、统计学、人工智能、可视化、机器学习、数据库、模式识别、神经网络、图像与信号处理、空间数据分析等众多领域的精髓并对目标原始数据进行计算、延展、创新,对决策具有可靠的指导意义。根据基于计算机运算、编程软件平台,利用新算法从数据中获得、吸取、理解隐藏在大数据背后复杂的、信息丰富的、有价值的信息。数据挖掘包含的学科中,统计学和机器学习是其中两门重要的学科,其中统计学源于数学,它强调数学逻辑的严密性。而机器学习更偏向于人工智能,找出数据间的共性,不断归纳,不断完善的过程。传统意义上讲,数据挖掘分为两类:预测性数据挖掘和描述性数据挖掘。预测性数据挖掘是生成已知数据集描述系统模型,而描述性数据挖掘是在可用数据集的基础上生成新的、有价值的信息。
有效的数据讲究时效性,对未知事物的预测建立在时间的坐标轴上,时间序列的特征是数据集中数据之间存在着时间上的关系,时间是时间序列的关键属性,时间序列数据挖掘是预测性数据挖掘最重要的分支,数据挖掘的方法和算法都可以应用在时间序列数据挖掘上,不同的是必须考虑数据集中数据间存在的时间关系。根据普速铁路线路修理规程中的有关规定,铁路线路大中修周期按照规定的线路累计通过总重确定,并可根据各线条件的实际设备状况,线路条件、运输条件和自然条件等具体情况调整。
数据挖掘的核心在于算法,基于不同的数据挖掘方法相关的算法更是多达十余种。其中聚类方法包括K-means和BIRCH等算法;选取不同的算法,往往会得到不同的结果,下面集合铁路轨道检测数据,运用聚类挖掘K-means算法对线路状态进行预测。
二、运用K-Means算法对轨道不平顺原始数据进行挖掘
铁路轨道合理的外形尺寸与平顺的几何线形是保障列车安全运行的重要前提,在轨道投入运营后,钢轨表面长期承受轮轴动力的反复作用,路基或地面可能产生区域性沉降从而引发轨道累积变形,需定期检测轨道静态几何状态的稳定性。以京广线安阳至郑州段线路为例,国家I级铁路,60kg/m温度应力式无缝线路,混凝土枕,碎石道床,养护标准为vmax≤ 160km/h,每年该段线路线捣、线磨、覆盖一遍,因此钢轨使用周期得到延长。在动态检测方面,轨检车数据存在着很大的离散性,从整体分析,线路质量状况随着时间的不同发生着变化,变化的快慢和幅度,也随着时间节点的不同而改变。同一地点的轨道几何及动力学参数存在关联特性,所以对该段的检测数据采集,时间节点的选取尤为重要。有砟道床状态不易保持,维修周期较短,线路变化明显,观测数据有限并不能得到理想的预测结果,但是高速铁路“严检慎修”的特点对高速铁路轨道的扰动较小,对长期采集数据加以分析,效果较好。
轨道结构动态检测每个月上下旬分别检查两次,历次检测数据构成轨道不平顺性时间序列数据,在轨道状态检测过程中,沿列车运行方向每隔0.25m取检测实时数据,检测项目有:轨距、水平、左高低、右高低、左轨向、右轨向、三角坑七个基本分项指标,长短波不平顺、轨距变化率和曲率变化率暂且不考虑。就某一单项指标随时间变化而变化可以看作一元时间序列数据。如果将这七个基本检测指标作为某一测点集合状态的七个维度,那么所形成的时间序列数据就形成了多元时间系列数据,因此轨道不平顺序列数据是一种多元时间序列数据,属于一种在时间上的离散数据。
根据2015年9月该段线路大修后到现在经历50次轨检车的检测数据,对波形图进行统计,以横轴为检测基本项目,纵轴为检测时间,竖轴为检测幅值大小。
京广线下行K519+000-K520+000区段4000个点在在2014年4月至2016年12月两年多时间,50次轨检车检测数据进行聚类分析,运用K-Means算法数据矩阵中对象之间的距离采用相互相关距离,变量间链接采用最小方差算法。这种分析并不能得到清晰的结果,所以改變思路从分析数据着手进行模式分析,其中分析数据包括统计分析数据和转换分析数据。将目标公里分割成40个小单元区段,对每个小单元标准差变化情况进行分析。40个单元段50次检测数据水平标准差按照所观测的时间长短进行统计,本文以水平参数为例,将数据进行依次统计数据在250天以前离散性较大,据资料查询线路在250天左右进行了大机清筛道床,大机捣固作业,使得线路状态较为稳定。
通过计算分析可以发现各区段轨道水平不平顺性标准差值随时间变化呈现差异性趋势,在这个差异周期内标准差呈上升趋势。根据上述已经划分好的40个单元段采用K-Means算法,数据矩阵中对象之间的距离采用互相关距离,变量之间链接采用最小方差法,从而得到聚类结果
由聚类结果的水平标准差可以发现,各单元段轨道状态变化呈现重复性趋势,各聚类中心将各单元段轨道状态变化特点进行划分。相对而言第四种聚类方式,能更加直观地反映出线路维修带来的离散差异性,在聚类结果图中曲线在某个周期间发生骤降。由于轨道在大机维修作业期间对存在不平顺超过限值的单元段会随时进行临修作业,因此个别单元轨段不平顺状态会出现区别于整个研究区段整体变化的特征,而整体上呈现的是分阶段上升变化的趋势特征。
三、总结
本文介绍了基于K-means算法分析轨道在正常使用期间的变化情况,发现轨道不平顺性变化周期性与周期内的恶化趋势,通过对数据挖掘概念及算法的研究,对轨道不平顺时间序列数据进行聚类分析,发现轨道不平顺时间序列变化的特征,并通过轨道不平顺数据挖掘实例中基于原始数据聚类和标准差数据聚类对轨道不平顺时间序列聚类结果进行对比分析,通过这种方法可以简单预测轨道结构状态变化,从而合理安排维修。
参考文献:
[1]中华人民共和国铁道部.铁运【2016】146号.铁路线路修理规范[M].北京:中国铁道出版社,2017.
[2]WISHART D.K-means clustering with outlier detection[A],Munich: University of Munich,2001.