论文部分内容阅读
目前,几乎每台出租车上都安装有GPS调度终端,这些装置大约每隔1秒钟就会向出租车调度中心发送实时状态信息,如车辆位置、速度、载客状态等。如何从这些庞大的出租车运营数据中挖掘出有用的信息,用来指导出租车公司优化调度,是当前一个热门的研究领域。通过研究目前国内外出租车调度系统的应用发展状况,我们发现这些调度系统大多采用基于静态历史数据、粗粒度、集中式的调度方案,或者是电话预约模式下的人工调度,具有滞后性、模糊性,且当请求较多时,调度中心往往超负荷运作,最终调度效果并不理想,甚至导致多数出租车司机宁愿选择盲目随机拾客。根据以上分析,本文结合空间聚类技术,给出一种基于出租车载客热点区域的分布式、动态调度方案;提出带有范围控制的空间聚类算法R-FDBSCAN,对出租车GPS历史数据进行均匀、细粒度聚类;并在Weka平台中集成R-FDBSCAN算法,针对北京市出租车数据进行热点区域挖掘。具体工作如下:1.提出一种基于出租车载客热点区域的调度方案,该方案通过对出租车GPS历史数据进行空间聚类,挖掘细粒度的载客热点区域;定义质心、热度分别表示热点区域的位置和对出租车的需求度,用于约减出租车载客热点区域的信息,存储于出租车调度终端,用来实现快速离线调度或实时动态调度,并在一定程度上减轻调度中心的负荷;2.为实现出租车GPS历史数据的均匀、细粒度聚类,本文提出一个改进的空间聚类算法R-FDBSCAN。通过对常用聚类算法的分析发现,经典的基于密度的聚类算法DBSCAN在内存要求和执行效率方面存在不足,有人提出快速聚类算法FDBSCAN以解决此类问题,但该算法无法对GPS数据进行均匀的、细粒度聚类。为此,本文提出带有范围控制的R-FDBSCAN算法,通过增加参数R,在选择代表种子对象扩展类簇时,用参数R判断是否对该代表种子对象进行扩展,最终将类簇范围控制在边长为R的矩形区域内,从而符合出租车细粒度调度的应用要求。实验结果表明,与DBSCAN算法和FDBSCAN算法相比,R-FDBSCAN算法在时间性能及聚类结果上都具有一定优势;随着R值的增大,其对类簇的扩展限制越宽松,最终类簇的数量越小,且当R超过某一值时,其将退化为FDBSCAN算法。具体聚类过程中参数R的选取可依据城区规划的交通小区范围而定;3.在数据挖掘平台Weka中集成R-FDBSCAN算法,在此基础上进行出租车载客热点区域挖掘和可视化分析。针对Weka提供的二次开发接口,在该平台上集成R-FDBSCAN算法;对北京市12000台出租车4天的GPS数据进行统计,将正常工作日和节假日分为不同的特征时间段,并就每个特征时间段进行空间聚类;在ArcGIS中将约简的出租车载客热点区域与实景地图匹配,依热度值分等级用不同颜色显示,结合居民日常出行规律分析高热度值载客区域特点,验证使用质心、热度约简整个载客热点区域以实现出租车分布式、动态调度的可行性。本文提出的基于出租车载客热点区域的调度方案可指导出租车司机准确、快速地前往高需求区域,将调度任务分散到各个调度终端,实现分布式、动态调度,一定程度上减轻调度中心的负荷,提高整个出租车行业的运营效率;改进的R-FDBSCAN算法可用于空间数据的均匀、细粒度聚类,挖掘得出的出租车载客热点区域,可用于研究居民日常行为规律、指导政府合理规划城市交通建设、基于需求设置定点扬招站等。