论文部分内容阅读
摘要本文介绍了一种公交大数据以及数据挖掘服务模型。文章包括适用于公交数据的大数据存储系统架构与公交数据语义化分析模型,介绍了公交数据构成的大数据基础架构以及其为应用提供服务的方式。文章最后介绍了三种得到大数据支撑的公交应用以及其目前工作的进展,并对公交大数据未来的发展做出了预测。
关键词智能公交大数据挖掘模型
一、引言
智能公交目前面临海量数据管理与应用的难题,必须引入大数据挖掘技术来加以解决。大数据挖掘是包含了数据处理、分析、挖掘等方面的一系列技术的总称,根据智能公交自身数据与业务特点,选择合理的大数据架构和数据挖掘技术,建立符合行业特点的大数据应用服务架构,是智能公交新型应用需要面对的首要问题。
数据挖掘在智能公交系统中的定位是基础性与服务性的。公交大数据挖掘的意义在于利用大数据的技术完成智能公交整体底层数据的接入与管理,实现不同类型数据之间的统一索引与融合,对数据做处理与分析,完成可视化、语义化的数据挖掘,从而能够支持上层各种智能公交复杂应用的要求。从这个目的出发,基于大数据的智能公交数据应用应首先选择合适的架构与数据挖掘手段。
二、需求分析
智能公交系统的功能需求分为三大部分:企业运营需求、公众服务需求、行业监管需求,整个智能公交系统的数据来源又可划分为车辆(机务)数据、线网数据、路网数据、乘客数据、人员数据、运行数据等分类。智能公交大数据必须从智能公交系统的数据出发,支持智能公交系统的功能需求,为了实现这一目标,智能公交大数据必须具有以下特征:
1、支持多源异构的大规模数据存储。智能公交系统的数据来源广泛,格式各异,各种数据之间结构也不相同;随着物联网技术的发展,智能公交数据增长是非常迅速的,各类传感器产生的大量数据必须迅速的得到处理。因此智能公交大数据必须能够支多源异构的、增长迅速的数据存储。
2、支持多种查询方式。基于数据来源的复杂性,智能公交大数据应能够支持nosql、newsql以及传统的结构化查询方式,这是实现数据集成应用的基础。
3、支持多种分析与挖掘技术:智能公交大数据与其他数据系统相比,其数据中包含的价值很高,但是面对特定的应用,数据中的冗余较大,相关性比较隐晦,需要有力的数据分析挖掘技术进行处理。智能公交大数据应包含数据分析与挖掘技术。
4、支持可视化分析技术:面对海量智能公交数据,其分析结果与日常管理均需提供直观的展示。
三、系统架构
1、大数据架构
智能公交大数据架构以满足应用需求为目标,选择合适的实现方式进行搭建,(如图1)其主体分为数据接入、数据存储与数据管理三部分。
在智能公交大数据架构中,数据接入负责对分布广泛、多源异构的海量公交数据进行采集、汇聚与清洗;数据存储负责各种公交数据的存储并相应系统的各种查询、处理请求;数据管理负责对整个大数据系统以及其内部的数据进行各种配置与管理。
为了能够全面的满足智能公交系统需求,智能公交大数据架构必须选择合适的技术路线,其中数据存储层是大数据系统的核心,它直接关系到其他系统组件的选型与整个系统的性能。本文采用的数据存储结构(如图2所示)包含了一套分布式文件系统与资源管理系统,在文件系统上构建了数据仓库,支援结构化与非结构化数据的并行存储、查询、处理操作。另外还在存储结构之外部署了辅助控制系统,便于实现对存储集群的监控与协调操作。
在数据存储架构中,HDFS组成透明的分布式文件系统,HBase是系统的主数据库,利用基于MapReduce技术的Spark进行运算加速,能够实现数据库的快速查找与分析。Nagios与Ganglia分别用于监视系统状态与数据库状态,方便维护人员进行日常管理。
2、语义化模型
对于海量的公交大数据来说,面对不同应用,均需要对驳杂的数据进行分析与挖掘,大数据需要对数据进行语义化处理,为应用提供智能化、场景化、价值化的数据索引。
本文主要使用基于语义关联与本体适配技术的语义化处理模型对公交数据进行语义化处理,再由大数据平台Hbase对外提供应用支持(见图3)。
在本系统中,来自不同采集方式获得的公交数据均被转化为URL表达的数据,具有这项功能的模块称为URL化处理模块。随后所有数据都进入RDF标准化处理流程,经过关键词提取与语义识别后,成为计算机可以理解的数据形式,以上过程统称为语义化处理。数据经过语义化处理后,即可进行规则匹配,通过不同的匹配条件,实现语义关联操作,完成应用需求与数据之间的连接。
3、数据挖掘
利用语义化公交数据,大数据系统能够完成多种类型的数据挖掘。
(1)数据场景化挖掘:为数据找到对应的场景,并为数据标示场景标签,实现场景分类功能。数据场景化挖掘利用六种场景化定义进行数据索引,包括场景名、本体集、属性集、语义集、属性权重和语义权重。利用场景化定义,将数据分类至不同的场景中,例如车辆位置数据,既可以归类到车辆信息场景下,也可以归类到运营状态场景下。(2)数据语义查询:传统的数据查询是按照一定的属性对数据进行查询。利用语义化后的公交数据,可以实现模糊化的跨种类语义查询,例如查询某车站,能直接查询到车站位置以及在车站附近的公交车辆。(3)数据组合展示:利用语义化后的公交数据,开发新的展示应用,能够以不同的视角,展示新的数据联系,是公交数据全方位应用的重要手段。 基于语义化的数据挖掘,在智能公交中的应用价值,体现于现有智能公交数据采集的后端应用方面,例如:利用车载视频监控,进行车辆满载率、乘客计数应用时,完全不需要对视频数据本身进行传输和使用,而是通过前置的语义化处理技术,直接解读视频数据,将结果回传给后端应用,不仅仅解决了传输的成本问题,而且充分发挥了车载视频在智能公交运营上的服务作用,利用这些通过语义化技术处理过的采集信息进行深度挖掘,整合信息资源,就能提供诸如“客流”、“安全驾驶”、“拥挤程度”等丰富的交通相关信息。
四、应用示例
公交数据挖掘技术在公交行业将会有广泛的应用,并体现巨大的价值,能够较好的解决智能公交领域海量数据累积和处理,有效的为公交运行、运营监控、信息服务等提供支持。
(1)重构公交评价体系
关于公交现有的评价体系形式上是完整的,但局限于当时的技术条件和有限数据,存在有很多的不合理、不科学。借助公交大数据系统,重构公交评价标系,包括明确一些指标的计算方法,减少一些没有多少评价作用的指标,增加一些更具评价作用的新指标,充分大数据可视化分析的能力,提供直观、准确、动态的评估结果,并分析体系优缺点,提出解决方案。目前该应用已经进行试运行,取得了良好的用户反响,未来该应用将增强横向与纵向可比性,持续改进,日臻完善,届时还可以引入多种形式资本,形成适度竞争格局。
(2)还原真实客流需求,吸引出行者乘坐公交
出行成本除了直接经济成本之外,人们更在意时间成本、安全、方便、舒适、快捷等非经济方面。对于乘坐公交出行而言,现行的票价能够为绝大多数人所接受,吸引更多人乘坐公交的关键在于公交能否在服务方面有所改善,达到较好的公交出行体验,大数据时代的来临为此提供了可能性。
公交大数据能够真实还原客流需求,吸引更多出行者乘坐公交。客流所表现出来的出行需求是相当复杂的,不是小样本数据、简单规则所能刻化的,通过对大数据的分析和预测,公交企业利用该系统不但观察到出行需求,还能通过长尾数据来发现个性化的小众需求,从而科学地规划线路,合理地投入运力,避免了经验式的一刀切、简单化。比如,可以通过运营商的数据拟合高峰时段的人流迁移而开展定制公交服务。目前由公交大数据支撑的智能化公交调度系统已经投入使用,获得了良好的反响。
(3)创新车辆维修保养模式
大数据在公交运营管理中的运营、调度、安全、服务等多个方面、多个环节、所有层面都有潜在的新应用,利用公交大数据管理公交企业的生产资料也是公交大数据的一种新型应用方式。目前车辆已经实现对油、气、水、电等多类管线(路)的实时监控和数据采集,记录了引擎、燃润、制动、悬挂等所有部系的工作状态,甚至还包括与驾驶员操作相关的数据。利用大数据技术对这些数据进行挖掘,能够揭示许多潜在的关联,利用这种关联关系,优化公交企业生产资料配置,提升从业者技能水平,节约生产开支,通过各种手段,提升企业运营效率。基于大数据的机务系统已经得到全面应用,彻底改变修理等报修、保养遵从间隔里程的传统做法,颠覆现有维修保养模式,已经在很大程度上减少因机械故障引发的安全事故,降低维修成本,降低抛锚率,提高运营效率,为企业节约了大量成本。
五、结论
大数据给许多行业带来了变革,智能公交拥抱大数据同样能够取得丰硕的成果。文中说明了一种以现有公交数据汇集构成的公交大数据结构,该公交大数据服务于多个公交业务系统,最后已经实施的公交大数据应用为例,说明了大数据技术对公交现有业务的促进作用。展望未来,随着综合交通、智慧交通的发展,公交大数据应用将在智能公交领域全面开花,其应用范围也将逐渐拓展出公交行业的限制,成为城市交通系统中不可或缺的重要组成部分。
参考文献:
[1]Fay Chang, Jeffrey Dean, Sanjay etc, Bigtable: A Distributed Storage System for Structured Data, Google, Inc.
[2]王玮.基于模糊综合评价法的快速公共交通系统评价研究[D].长安大学,2012(05).
[3]梁枫明.基于IC卡信息的公交客流出行特征分析系统研究[D].华南理工大学,2011(06).
[4]刘小峰.基于大数据的智慧云公交调度管理系统[J].电脑开发与应用,2014(09).
(作者单位:合肥公交集团有限公司)
关键词智能公交大数据挖掘模型
一、引言
智能公交目前面临海量数据管理与应用的难题,必须引入大数据挖掘技术来加以解决。大数据挖掘是包含了数据处理、分析、挖掘等方面的一系列技术的总称,根据智能公交自身数据与业务特点,选择合理的大数据架构和数据挖掘技术,建立符合行业特点的大数据应用服务架构,是智能公交新型应用需要面对的首要问题。
数据挖掘在智能公交系统中的定位是基础性与服务性的。公交大数据挖掘的意义在于利用大数据的技术完成智能公交整体底层数据的接入与管理,实现不同类型数据之间的统一索引与融合,对数据做处理与分析,完成可视化、语义化的数据挖掘,从而能够支持上层各种智能公交复杂应用的要求。从这个目的出发,基于大数据的智能公交数据应用应首先选择合适的架构与数据挖掘手段。
二、需求分析
智能公交系统的功能需求分为三大部分:企业运营需求、公众服务需求、行业监管需求,整个智能公交系统的数据来源又可划分为车辆(机务)数据、线网数据、路网数据、乘客数据、人员数据、运行数据等分类。智能公交大数据必须从智能公交系统的数据出发,支持智能公交系统的功能需求,为了实现这一目标,智能公交大数据必须具有以下特征:
1、支持多源异构的大规模数据存储。智能公交系统的数据来源广泛,格式各异,各种数据之间结构也不相同;随着物联网技术的发展,智能公交数据增长是非常迅速的,各类传感器产生的大量数据必须迅速的得到处理。因此智能公交大数据必须能够支多源异构的、增长迅速的数据存储。
2、支持多种查询方式。基于数据来源的复杂性,智能公交大数据应能够支持nosql、newsql以及传统的结构化查询方式,这是实现数据集成应用的基础。
3、支持多种分析与挖掘技术:智能公交大数据与其他数据系统相比,其数据中包含的价值很高,但是面对特定的应用,数据中的冗余较大,相关性比较隐晦,需要有力的数据分析挖掘技术进行处理。智能公交大数据应包含数据分析与挖掘技术。
4、支持可视化分析技术:面对海量智能公交数据,其分析结果与日常管理均需提供直观的展示。
三、系统架构
1、大数据架构
智能公交大数据架构以满足应用需求为目标,选择合适的实现方式进行搭建,(如图1)其主体分为数据接入、数据存储与数据管理三部分。
在智能公交大数据架构中,数据接入负责对分布广泛、多源异构的海量公交数据进行采集、汇聚与清洗;数据存储负责各种公交数据的存储并相应系统的各种查询、处理请求;数据管理负责对整个大数据系统以及其内部的数据进行各种配置与管理。
为了能够全面的满足智能公交系统需求,智能公交大数据架构必须选择合适的技术路线,其中数据存储层是大数据系统的核心,它直接关系到其他系统组件的选型与整个系统的性能。本文采用的数据存储结构(如图2所示)包含了一套分布式文件系统与资源管理系统,在文件系统上构建了数据仓库,支援结构化与非结构化数据的并行存储、查询、处理操作。另外还在存储结构之外部署了辅助控制系统,便于实现对存储集群的监控与协调操作。
在数据存储架构中,HDFS组成透明的分布式文件系统,HBase是系统的主数据库,利用基于MapReduce技术的Spark进行运算加速,能够实现数据库的快速查找与分析。Nagios与Ganglia分别用于监视系统状态与数据库状态,方便维护人员进行日常管理。
2、语义化模型
对于海量的公交大数据来说,面对不同应用,均需要对驳杂的数据进行分析与挖掘,大数据需要对数据进行语义化处理,为应用提供智能化、场景化、价值化的数据索引。
本文主要使用基于语义关联与本体适配技术的语义化处理模型对公交数据进行语义化处理,再由大数据平台Hbase对外提供应用支持(见图3)。
在本系统中,来自不同采集方式获得的公交数据均被转化为URL表达的数据,具有这项功能的模块称为URL化处理模块。随后所有数据都进入RDF标准化处理流程,经过关键词提取与语义识别后,成为计算机可以理解的数据形式,以上过程统称为语义化处理。数据经过语义化处理后,即可进行规则匹配,通过不同的匹配条件,实现语义关联操作,完成应用需求与数据之间的连接。
3、数据挖掘
利用语义化公交数据,大数据系统能够完成多种类型的数据挖掘。
(1)数据场景化挖掘:为数据找到对应的场景,并为数据标示场景标签,实现场景分类功能。数据场景化挖掘利用六种场景化定义进行数据索引,包括场景名、本体集、属性集、语义集、属性权重和语义权重。利用场景化定义,将数据分类至不同的场景中,例如车辆位置数据,既可以归类到车辆信息场景下,也可以归类到运营状态场景下。(2)数据语义查询:传统的数据查询是按照一定的属性对数据进行查询。利用语义化后的公交数据,可以实现模糊化的跨种类语义查询,例如查询某车站,能直接查询到车站位置以及在车站附近的公交车辆。(3)数据组合展示:利用语义化后的公交数据,开发新的展示应用,能够以不同的视角,展示新的数据联系,是公交数据全方位应用的重要手段。 基于语义化的数据挖掘,在智能公交中的应用价值,体现于现有智能公交数据采集的后端应用方面,例如:利用车载视频监控,进行车辆满载率、乘客计数应用时,完全不需要对视频数据本身进行传输和使用,而是通过前置的语义化处理技术,直接解读视频数据,将结果回传给后端应用,不仅仅解决了传输的成本问题,而且充分发挥了车载视频在智能公交运营上的服务作用,利用这些通过语义化技术处理过的采集信息进行深度挖掘,整合信息资源,就能提供诸如“客流”、“安全驾驶”、“拥挤程度”等丰富的交通相关信息。
四、应用示例
公交数据挖掘技术在公交行业将会有广泛的应用,并体现巨大的价值,能够较好的解决智能公交领域海量数据累积和处理,有效的为公交运行、运营监控、信息服务等提供支持。
(1)重构公交评价体系
关于公交现有的评价体系形式上是完整的,但局限于当时的技术条件和有限数据,存在有很多的不合理、不科学。借助公交大数据系统,重构公交评价标系,包括明确一些指标的计算方法,减少一些没有多少评价作用的指标,增加一些更具评价作用的新指标,充分大数据可视化分析的能力,提供直观、准确、动态的评估结果,并分析体系优缺点,提出解决方案。目前该应用已经进行试运行,取得了良好的用户反响,未来该应用将增强横向与纵向可比性,持续改进,日臻完善,届时还可以引入多种形式资本,形成适度竞争格局。
(2)还原真实客流需求,吸引出行者乘坐公交
出行成本除了直接经济成本之外,人们更在意时间成本、安全、方便、舒适、快捷等非经济方面。对于乘坐公交出行而言,现行的票价能够为绝大多数人所接受,吸引更多人乘坐公交的关键在于公交能否在服务方面有所改善,达到较好的公交出行体验,大数据时代的来临为此提供了可能性。
公交大数据能够真实还原客流需求,吸引更多出行者乘坐公交。客流所表现出来的出行需求是相当复杂的,不是小样本数据、简单规则所能刻化的,通过对大数据的分析和预测,公交企业利用该系统不但观察到出行需求,还能通过长尾数据来发现个性化的小众需求,从而科学地规划线路,合理地投入运力,避免了经验式的一刀切、简单化。比如,可以通过运营商的数据拟合高峰时段的人流迁移而开展定制公交服务。目前由公交大数据支撑的智能化公交调度系统已经投入使用,获得了良好的反响。
(3)创新车辆维修保养模式
大数据在公交运营管理中的运营、调度、安全、服务等多个方面、多个环节、所有层面都有潜在的新应用,利用公交大数据管理公交企业的生产资料也是公交大数据的一种新型应用方式。目前车辆已经实现对油、气、水、电等多类管线(路)的实时监控和数据采集,记录了引擎、燃润、制动、悬挂等所有部系的工作状态,甚至还包括与驾驶员操作相关的数据。利用大数据技术对这些数据进行挖掘,能够揭示许多潜在的关联,利用这种关联关系,优化公交企业生产资料配置,提升从业者技能水平,节约生产开支,通过各种手段,提升企业运营效率。基于大数据的机务系统已经得到全面应用,彻底改变修理等报修、保养遵从间隔里程的传统做法,颠覆现有维修保养模式,已经在很大程度上减少因机械故障引发的安全事故,降低维修成本,降低抛锚率,提高运营效率,为企业节约了大量成本。
五、结论
大数据给许多行业带来了变革,智能公交拥抱大数据同样能够取得丰硕的成果。文中说明了一种以现有公交数据汇集构成的公交大数据结构,该公交大数据服务于多个公交业务系统,最后已经实施的公交大数据应用为例,说明了大数据技术对公交现有业务的促进作用。展望未来,随着综合交通、智慧交通的发展,公交大数据应用将在智能公交领域全面开花,其应用范围也将逐渐拓展出公交行业的限制,成为城市交通系统中不可或缺的重要组成部分。
参考文献:
[1]Fay Chang, Jeffrey Dean, Sanjay etc, Bigtable: A Distributed Storage System for Structured Data, Google, Inc.
[2]王玮.基于模糊综合评价法的快速公共交通系统评价研究[D].长安大学,2012(05).
[3]梁枫明.基于IC卡信息的公交客流出行特征分析系统研究[D].华南理工大学,2011(06).
[4]刘小峰.基于大数据的智慧云公交调度管理系统[J].电脑开发与应用,2014(09).
(作者单位:合肥公交集团有限公司)