论文部分内容阅读
通勤出行是城市居民日常活动中的重要组成部分,其中通勤发生量、通勤吸引量与OD间通勤量不仅是通勤需求预测关心的指标,相关研究成果对于规划管理政策制定或城市建设项目评估等更是有重要的决策参考意义。随着大数据时代的到来与机器学习技术的蓬勃发展,目前国内外研究已有利用手机信令数据为代表的大数据以及以机器学习为代表的新兴技术对通勤量研究进行了新探索,虽然一定程度上弥补了以往研究中数据获取成本高、效率低、覆盖范围小等数据层面的不足,改善了传统方法与模型存在的假设条件不合理、结构不灵活、估测精度较低等问题,但是大多数研究中大数据的作用局限在作为抽样调查数据的替代或者为传统模型增加影响因子,而机器学习方法的使用仍旧基于单一的居民或家庭出行调查数据,致使新数据与新技术拟合与预测通勤量的潜力未充分施展。不仅如此,已有研究对于影响因素的选择不够全面,也缺乏不同影响因素与通勤量之间复杂关系的深入讨论。本文取机器学习领域的随机森林作为估算、预测与分析通勤量的研究方法,基于手机信令数据、地图兴趣数据、路径规划数据、用地现状数据以及房价房租数据等多源数据,在系统归纳分析通勤量的影响因子基础上以昆山市中心城区为实证区域,提出了融合随机森林算法与多源大数据的通勤量模型(通勤发生量模型、通勤吸引量模型、研究单元间通勤量模型)构建方法。继而识别了对通勤量最为关键的因子并深入探究了各关键因子与通勤量间的复杂非线性关系,以期为大数据时代背景下昆山多元复杂的通勤需求预测分析提供服务,为昆山规划管理部门针对性地制定土地利用、交通管理等相关政策等提供科学的决策依据。本文主要内容与结论如下:(1)建立适用于通勤量估算或预测的特征集。遵循特征工程的流程,分别为通勤发生量模型、通勤吸引量模型以及研究单元间的通勤量模型设计人口就业、建成环境、社会经济、通勤出行、单元区位、单元面积六方面特征,通过分析平均精确度下降值(Mean Decrease Accuracy)的方式选择16个、19个、16个对模型性能影响较大的特征参与模型构建。(2)提出基于随机森林的通勤量模型构建方法。基于随机森林算法,以研究单元的通勤发生量、吸引量以及研究单元间通勤量为因变量评估结果并分析误差产生原因,结果表明:(1)通勤发生量模型和通勤吸引量模型取得较高的精度和泛化能力,R~2分别达到0.81和0.69。(2)研究单元间通勤量模型分结果可信度差且存在过拟合问题,其R~2不足0.2,表明当前手机信令数据的精度和质量尚不足以支持较小的研究单元尺度下OD间通勤量的估算与预测。(3)通勤发生量模型和吸引量模型估算结果较可靠,通勤发生量估算值、吸引量估算值与对应实际值的R~2分别达0.87和0.78,此外多重共线性现象不影响结果。(4)误差主要由于研究数据或研究尺度限制、绿地水体特征缺乏而导致,表现在:低估“宿舍-工厂”密集片区生成量,略高估市区核心地段、花桥边缘区的生成量,并且高估分布有大面积绿地水体的研究单元的发生量。(3)识别对通勤量最为关键的因子。通过分析特征重要性,研究发现通勤发生量与吸引量的关键因子较为相似,并且各自前七个关键因子的累计重要性均达到94%以上。具体表现在:居住人口密度和就业人口密度分别是对通勤发生量、通勤吸引量最为关键的因子,重要性分别达0.60和0.52。居住人口密度、就业岗位密度、单元面积、平均通勤距离、平均换乘次数、平均租金均是两类通勤量的关键因子。不仅如此,平均房价和建设密度分别对发生量、吸引量有一定影响。(4)探讨关键因子与通勤量之间的非线性关系。通过分析特征贡献的数值分布、变化趋势与空间差异,研究发现:(1)居住人口密度、单元面积和就业岗位密度对通勤发生量与吸引量估算值有决定作用,而其他因子能够对结果起到修正作用。主要体现在:上述三个关键因子的特征贡献值域和高密度数值区间均较大,可以极大地将随机森林节点输出值从偏差改变至估算结果,而其他因子的特征贡献范围和高密度数值区间则较为局限。(2)关键因子对通勤发生量与吸引量的影响程度随自身值的增加呈现不同趋势。就发生量而言,居住人口密度和就业岗位密度的影响力随其值增加,达到峰值后保持不变,转折点对应50000人/km~2和70000人/km~2,该规律与单元面积限制有关;平均公交换乘次数i与平均通勤距离i的影响力呈现先略微下降,后迅速上升,最后保持稳定的分段规律,转折点对应0.8次和5km、1.3次和9km,不同分段与研究单元公共交通发达程度、通勤距离类型有关。就吸引量而言,居住人口密度、就业岗位密度、平均公交换乘次数j与平均通勤距离j影响力的变化规律与其在估测发生量时呈现的趋势一致,但是前两者影响力峰值发生改变并且后两者对吸引量更重要;建设密度的影响力与其值存在负相关关系,但负向影响的程度不大。(3)关键因子对通勤发生量与吸引量的影响程度存在与其变化趋势、发生量与吸引量空间分布特点、自身值空间分布特点有关的空间差异。其中,居住人口密度影响程度较高的地区与通勤发生量密度、人口密度的高值区分布一致,即核心区、城北西路沿线以及核心区周边沿交通干道分布居住区;就业岗位密度影响程度较高的地区与吸引量密度、就业岗位密度高值区相对应,且高值区拓展到核心区外的企业密集区;平均换乘次数和平均通勤距离的影响程度总体呈现内低外高的“核心-边缘”格局,分别对应其变化趋势的两段规律;建设密度的负向影响主要分布于核心区和周边主要的居住片区,而正向影响则分布于工业园、产业园,这与核心区研究单元建设密度高但吸引绝对量较小、吸引大量通勤的园区建设密度较低等因素有关。本文正文共约51 438字,图表123幅。