论文部分内容阅读
近年来,随着我国高速铁路动车组的大规模投入使用,动车组各种监测数据呈现爆炸式增长。同时,动车组闸片、车轮、转向架等主要部件产生的工作状态数据是动车组故障诊断、寿命预测、知识推理等工作的基础,对整个铁路的信息化发展起着举足轻重的作用。但是,数据质量问题并没有得到应有的重视,观察监测到的动车组数据发现,其中存在着数据不完整、信息冗余、含有非法数据等质量问题,使得基于动车组数据分析的工作产生错误的分析结果,影响了信息服务的质量,因此,对动车组数据进行清洗具有一定的理论和现实意义。本文主要研究动车组数据中含有非法数据,即离群点的情况。由于传统的清洗算法在处理大数据时性能较差,因此本文引入了Hadoop分布式计算框架,该框架的Map/Reduce编程模型能够与本文的算法完美结合。针对动车组数据量大、维数较多和数据类型多样等特点,提出了基于网格的LOF离群点检测算法。由于数据集中的大部分数据不是离群点,因此对整个数据集进行离群点检测是没有必要的,而基于网格的LOF离群点检测算法能够先删除一部分不包含离群点的数据,即进行网格剪枝,再对剩余的数据集进行离群点检测,大大减小了算法的时间复杂度。本文针对基于网格的LOF离群点检测算法提出了如下改进:首先,针对网格剪枝中网格密度定义的不严谨性,提出了聚类半径的概念,通过这个改进能够避免漏检离群点,大大提高检测精度;其次,针对LOF算法不能与MapReduce编程模型很好结合的情况,提出了网格编号的概念,通过网格编号,把整个数据集划分为若干个被标记的小数据集,使基于MapReduce并行化机制的LOF算法能快速进行数据处理。通过实验证明,改进的基于网格的LOF离群点检测算法在离群点的检测精度与时间效率上都有所改善。实验同时验证了Hadoop集群对大数据集优越的处理能力。总之,本文的研究成果对动车组大数据清洗的研究提供了一定的参考。