论文部分内容阅读
摘要:本文主要对大数据技术进行介绍,旨在利用大数据技术对自动售检票系统设备状态、数据进行整合、分析,以实现车站自动售检票设备的智能管理,推动智慧车站的建设。
关键字 AFC 大数据 地铁
1.概述
随着大数据时代的来临,交通运输业的发展,传统模式下的自动售检票系统(以下简称为:AFC系统)所提供的出行体验已远远无法满足不了乘客更快、更舒适的出行体验需求,同时一概而论的设备管理方法也不符合新时期依托科技创新促进节能减排的要求。本文简单介绍大数据技术并浅谈其在地铁AFC系统中的应用前景。
2.大数据简介
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。 [1]
大数据有以下特点:
Volume(大量):数据体量大,各环节(如:采集、存储和处理)的数据量都非常巨大。大数据的起始计量单位至少为PB、EB或ZB级别(1024TB=1PB、1024PB=1EB、1024EB=1ZB)。
Velocity(高速):数据的增长速度、处理速度快,时效性高。相比与传统数据,大数据要求把采集的数据尽可能地实时计算分析并将最终结果展示给用户。
Variety(多样):数據的种类和来源多样化,具体表现为日志、音频、视频、图片、地理位置、时间、人员等等信息,多样化的数据要求进行数据分析的设备具备更高的数据处理能力。
Value(低价值密度):数据价值密度相对较低,大数据虽存储的数据体量大,但单一的数据不具备高价值。从这体量大价值低的数据中如何通过算法挖掘用户所需的信息是大数据时代最重要的课题。
Veracity(真实性):数据的准确性和可靠性,即数据的质量。
3.大数据分析方法
大数据分析方法可分为5个阶段:数据采集、数据储存、数据清洗、数据分析、数据可视化展示。
数据采集:通过对已有系统数据库、设备系统日志、感知设备、网络爬虫等技术手段对符合要求的数据进行采集;
数据存储:大数据使用的存储设备需具备数据处理速度快、数据吞吐率高、数据容量大的特点。通常采用分布式系统、NoSQL数据库、云数据库等;
数据清洗:将存储的数据进行清洗,主要包括缺失值处理、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证;
数据分析:对清洗后的数据进行管理,分析并萃取数据隐藏价值的过程。主要包括可视化分析、数据挖掘算法、预测性分析、数据质量管理等方面。
可视化分析,指借助图形化手段,直观、清晰地传达数据信息的分析手段。主要用于对海量数据进行关联性分析,通过可视化数据分析平台,将分散、非结构性数据进行关联分析,得出分析图表的过程。
数据挖掘算法,基于的数据类型、格式的不同,需建立与之对应的算法模型。创建模型的过程一般如下,对用户提供的数据进行分析,查找特定类型的规律及趋势制作基本模型,将其应用于已有数据集中进行训练,最终获得数据模型的最佳参数。
预测性分析,通过多种分析方法(如数据挖掘、预测建模、实时评价、机器学习)相结合的方法对数据进行预测性分析,以实现对不确定事件的预测,为预防性措施的制定提供依据。预测性分析是大数据分析最重要的应用领域之一。
数据质量管理,对数据自产生到消失整个生命周期的状态管理,防止因数据质量问题导致分析异常。主要包括对数据全生命周期状态进行识别、监视,异常数据预警。
数据展示:将分析后的数据通过图、表等形式实时进行多维展示,为决策提供数据支持;
4、实例分析
下面以云计算为基础,提出一种通过大数据实现AFC系统设备自我诊断的方法,对AFC设备维护策略制定提出指导建议,以实现AFC设备的平稳运行,保证乘客的出行体验。
数据采集:将现有AFC设备进行分类,尽可能地将各设备细化至单个部件维度。对每个部件建立电子标签,需包含以下信息:设备类型、品牌型号、启用时间、设备维护记录,故障记录(包含故障原因、现象、处理方法、维修内容)。
数据存储:现场人员可通过移动设备、PC终端将设备的维护、故障处理信息记录至云端数据库。对AFC设备各软件进行改造,将设备的关键设备状态(以闸机为例,如网络状态、CPU及内存使用情况、整机及各模块的供电、工作情况、无故障运行时间)及运行情况(以闸机为例,过闸人数、过闸方法)实时记录至云端数据库;
数据清洗:对云端储存的数据进行清洗,核对人工录入数据,验证设备数据的关联性是否正确、有无缺失、逻辑冲突(如故障记录与无故障运行时间、处理方法与维修内容是否冲突);
数据分析:将清洗后的数据进行整合,对设备运行状态、核心部件类型、检修时间、历史故障数据进行整合判定,对状态异常设备进行标示,提醒现场维护人员重点关注;
数据展示:将各设备及各关键零部件当前运行状态和数据分析的结果(如对不同状态的设备、关键零部件提供差异化维护建议、对各设备零部件剩余寿命进行预测)在终端实时进行显示,指导维修人员开展设备差异化维护工作,为备品备件采购提供数据支持;
5.结论
在大数据时代,AFC系统数据已不单单只是作为记录保存在数据库中。通过建立适当的数学模型对AFC系统现有数据充分进行挖掘,分析数据之间的关联性,不但能够为AFC系统的安全稳定运行提供指导性建议,而且也能为乘客提供更加优质的出行体验。
参考文献
[1]济南市大数据局 大数据百科 什么是大数据?(http://jndsj.jinan.gov.cn/art/2019/8/13/art_39428_3158286.html).
关键字 AFC 大数据 地铁
1.概述
随着大数据时代的来临,交通运输业的发展,传统模式下的自动售检票系统(以下简称为:AFC系统)所提供的出行体验已远远无法满足不了乘客更快、更舒适的出行体验需求,同时一概而论的设备管理方法也不符合新时期依托科技创新促进节能减排的要求。本文简单介绍大数据技术并浅谈其在地铁AFC系统中的应用前景。
2.大数据简介
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。 [1]
大数据有以下特点:
Volume(大量):数据体量大,各环节(如:采集、存储和处理)的数据量都非常巨大。大数据的起始计量单位至少为PB、EB或ZB级别(1024TB=1PB、1024PB=1EB、1024EB=1ZB)。
Velocity(高速):数据的增长速度、处理速度快,时效性高。相比与传统数据,大数据要求把采集的数据尽可能地实时计算分析并将最终结果展示给用户。
Variety(多样):数據的种类和来源多样化,具体表现为日志、音频、视频、图片、地理位置、时间、人员等等信息,多样化的数据要求进行数据分析的设备具备更高的数据处理能力。
Value(低价值密度):数据价值密度相对较低,大数据虽存储的数据体量大,但单一的数据不具备高价值。从这体量大价值低的数据中如何通过算法挖掘用户所需的信息是大数据时代最重要的课题。
Veracity(真实性):数据的准确性和可靠性,即数据的质量。
3.大数据分析方法
大数据分析方法可分为5个阶段:数据采集、数据储存、数据清洗、数据分析、数据可视化展示。
数据采集:通过对已有系统数据库、设备系统日志、感知设备、网络爬虫等技术手段对符合要求的数据进行采集;
数据存储:大数据使用的存储设备需具备数据处理速度快、数据吞吐率高、数据容量大的特点。通常采用分布式系统、NoSQL数据库、云数据库等;
数据清洗:将存储的数据进行清洗,主要包括缺失值处理、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证;
数据分析:对清洗后的数据进行管理,分析并萃取数据隐藏价值的过程。主要包括可视化分析、数据挖掘算法、预测性分析、数据质量管理等方面。
可视化分析,指借助图形化手段,直观、清晰地传达数据信息的分析手段。主要用于对海量数据进行关联性分析,通过可视化数据分析平台,将分散、非结构性数据进行关联分析,得出分析图表的过程。
数据挖掘算法,基于的数据类型、格式的不同,需建立与之对应的算法模型。创建模型的过程一般如下,对用户提供的数据进行分析,查找特定类型的规律及趋势制作基本模型,将其应用于已有数据集中进行训练,最终获得数据模型的最佳参数。
预测性分析,通过多种分析方法(如数据挖掘、预测建模、实时评价、机器学习)相结合的方法对数据进行预测性分析,以实现对不确定事件的预测,为预防性措施的制定提供依据。预测性分析是大数据分析最重要的应用领域之一。
数据质量管理,对数据自产生到消失整个生命周期的状态管理,防止因数据质量问题导致分析异常。主要包括对数据全生命周期状态进行识别、监视,异常数据预警。
数据展示:将分析后的数据通过图、表等形式实时进行多维展示,为决策提供数据支持;
4、实例分析
下面以云计算为基础,提出一种通过大数据实现AFC系统设备自我诊断的方法,对AFC设备维护策略制定提出指导建议,以实现AFC设备的平稳运行,保证乘客的出行体验。
数据采集:将现有AFC设备进行分类,尽可能地将各设备细化至单个部件维度。对每个部件建立电子标签,需包含以下信息:设备类型、品牌型号、启用时间、设备维护记录,故障记录(包含故障原因、现象、处理方法、维修内容)。
数据存储:现场人员可通过移动设备、PC终端将设备的维护、故障处理信息记录至云端数据库。对AFC设备各软件进行改造,将设备的关键设备状态(以闸机为例,如网络状态、CPU及内存使用情况、整机及各模块的供电、工作情况、无故障运行时间)及运行情况(以闸机为例,过闸人数、过闸方法)实时记录至云端数据库;
数据清洗:对云端储存的数据进行清洗,核对人工录入数据,验证设备数据的关联性是否正确、有无缺失、逻辑冲突(如故障记录与无故障运行时间、处理方法与维修内容是否冲突);
数据分析:将清洗后的数据进行整合,对设备运行状态、核心部件类型、检修时间、历史故障数据进行整合判定,对状态异常设备进行标示,提醒现场维护人员重点关注;
数据展示:将各设备及各关键零部件当前运行状态和数据分析的结果(如对不同状态的设备、关键零部件提供差异化维护建议、对各设备零部件剩余寿命进行预测)在终端实时进行显示,指导维修人员开展设备差异化维护工作,为备品备件采购提供数据支持;
5.结论
在大数据时代,AFC系统数据已不单单只是作为记录保存在数据库中。通过建立适当的数学模型对AFC系统现有数据充分进行挖掘,分析数据之间的关联性,不但能够为AFC系统的安全稳定运行提供指导性建议,而且也能为乘客提供更加优质的出行体验。
参考文献
[1]济南市大数据局 大数据百科 什么是大数据?(http://jndsj.jinan.gov.cn/art/2019/8/13/art_39428_3158286.html).