论文部分内容阅读
摘 要:本文在相关网站是选取了相同时间段内的30辆车,对相关数据进行了预处理,选取了以拥堵时间比例作为因变量,一方面单独以司机自身的疲劳驾驶分析,一方面以行驶路程、转向次数、平均速度以及行驶时间时间为影响变量。针对已经整合好的车辆作为训练集初步建立了基于拥堵时间的多元线性预测模型,然后通过各指标间的多重共线性与显著性分析,进一步建立了非线性逐步回归作为拥堵时间预测模型。并进行两两误差分析对比,预测效果对比后确定了更为精确的逐步回归预测模型,并对此提出了该模型优缺点以及推广。
关键词:数据预处理;非线性逐步回归;定性与定量分析
一、问题分析框架
依据原始数据选取在相同时间段内的30辆车,以拥堵时间比例作为因变量,依据特征指标的选取原则以行驶路程、转向次数、平均速度、以及时间为影响变量。取部分车辆作为训练集初步建立了多元线性方程,然后进行各指标间的多重共线性与显著性分析,进行逐步回归进行影响汽车拥堵的重要指标变量得到逐步回归后的方程。再依据剩下的部分车辆数据作为测试集,利用由此得到的拥堵时间逐步回归方程得到的预测结果与测试集因变量进行对比,分析该车辆拥堵时间预测模型的误差与均方差,以此得到更加精确的拥堵时间预测模型。
二、问题重述
在导航软件中,行程时间的估计往往是一个重要的功能。现有的导航软件往往通过安装该软件的出租车或其他车辆来获取实时GPS数据以确定当前的道路状况。在交通严重堵塞的情况下,对车速的估计是不准确的。
问题是如何预测交通堵塞的时间?请收集现有数据,建立一个更准确的模型来解决这个问题。
三、符号说明
四、模型假设
(1)假设拥堵时间不受天气因素的影响;
(2)假设我们所选取的主要的影响指标是能大程度概括汽车安全驾驶行为的;
(3)假设经过数据预处理后删除的异常数据对总体数据的影响是不计的。
五、模型準备
数据预处理:对于 50 辆车的预处理,我们采用对数据清洗、数据集成、数据变换、数据规约。在这里发现车辆左右转向灯几乎在数据中都为零,我们对这一异常值进行了着重处理,利用每一辆车的方向角,我们制定了转向标准并且结合经纬度在地图中对其进行了验证,发现在地图上的明显道路转弯处基本和所处理的异常值符合。
(1)在对车辆轨迹处理中,我们在对应的坐标下,不同车辆不同程度上都出现了轨迹偏离现象。我们采用均值滤器进行轨迹数据异常处理以及清洗。由于车辆传感器带来的噪声,所以车联网收集的数据并不精确。
(2)对于异常数据处理:通过对初始数据的整理,发现在行驶路程为0的情况下,仍然存在着行驶时间不为0的情况,将此数据进行删除。
(3)对于车辆转向的数据处理:通过GPS返回的数据,我们依据车辆方向角的变化统计出车辆是否进行了转向。
六、模型建立
(1)内在因素分析:疲劳驾驶处理
疲劳驾驶是驾驶人自身的行为,也会对交通拥堵造成内在的因素,我们取前二十辆车进行分析。可发现,驾驶者的疲劳驾驶程度与拥堵率是显著正相关的,即代表驾驶者的本身内在因素也影响着拥堵时间的变化。
经求解,对其进行t检验,判断总体P_Value,但这并不能说明回归方程中的每一项都是显著的,也不能说明各项之间完全非共线。
观察每个变量的方差膨胀因子VIF,均小于5,即经过问题一处理后的因子完全不存在共线性。然后观察每个指标的P_Value,各个影响拥堵时间的特征指标都大于0.05,是不显著的。在这里我们选取行驶路程和转向次数等这四个不显著的因子,取其次数都为二,然后进行逐步回归分析。
逐步回归:
步骤1:对我们所选取的5个回归自变量分别同因变量y(拥堵时间率)建立多元非线性回归模型。
计算变量Xi,相应的回归系数的 F检验统计量的值,记为,,取f其中的最大值。
对给定的显著性水平,记相应的临界值为,,则将Xi引入回归模型,记I1为选入变量指标集合。
步骤2:建立因变量Y与自变量子集的二元回归模型(即此回归模型的回归元为二元的),共有4个。计算变量的回归系数 F检验的统计量值,记为,选其中最大者,记为,对应自变量标记为i2。
对给定的显著性水平,记相应的临界值为,则变量引入回归模型。否则,终止变量引入过程。
步骤3:考虑因变量对变量子集的回归重复步骤2。
依此方法重复进行,每次从未引入回归模型的自变量中选取一个,直到经检验没有变量引入为止。
不难发现,在进行拥堵时间的预测上,逐步回归分析模型相对线性预测模型更加吻合真实数据。
经过对比:误差在逐步回归中得到了明显改善,提高了该预测模型的精确性。
最终得到关于拥堵时间的预测模型:
七、模型推广与改进
(1)对于数据预处理过程中坏值的数据记录,我们可以通过问题建立的拥堵时间预测逐步回归方程加以求解,完善问题中的数据样本,提高模型的可靠性。
(2)按照实际情况可知,天气因素必然会对拥堵时间产生一定影响。但是模型中并没有体现这一因素,可能受到其同类因素的干扰导致显著性不明显。
参考文献
[1]李琦.基于多源数据的交通状态监测与预测方法研究[D].吉林大学,2013年6月.
[2]David Hand,Heikki Mnnila.Padhraic Smyth数据挖掘原理[M].张银奎,廖丽,宋俊等译.机械工业出版社,中信出版社,2004
作者简介
张静茹(1999—),女,汉族,山东泰安市,本科,研究方向:农业APP设计与研发。
关键词:数据预处理;非线性逐步回归;定性与定量分析
一、问题分析框架
依据原始数据选取在相同时间段内的30辆车,以拥堵时间比例作为因变量,依据特征指标的选取原则以行驶路程、转向次数、平均速度、以及时间为影响变量。取部分车辆作为训练集初步建立了多元线性方程,然后进行各指标间的多重共线性与显著性分析,进行逐步回归进行影响汽车拥堵的重要指标变量得到逐步回归后的方程。再依据剩下的部分车辆数据作为测试集,利用由此得到的拥堵时间逐步回归方程得到的预测结果与测试集因变量进行对比,分析该车辆拥堵时间预测模型的误差与均方差,以此得到更加精确的拥堵时间预测模型。
二、问题重述
在导航软件中,行程时间的估计往往是一个重要的功能。现有的导航软件往往通过安装该软件的出租车或其他车辆来获取实时GPS数据以确定当前的道路状况。在交通严重堵塞的情况下,对车速的估计是不准确的。
问题是如何预测交通堵塞的时间?请收集现有数据,建立一个更准确的模型来解决这个问题。
三、符号说明
四、模型假设
(1)假设拥堵时间不受天气因素的影响;
(2)假设我们所选取的主要的影响指标是能大程度概括汽车安全驾驶行为的;
(3)假设经过数据预处理后删除的异常数据对总体数据的影响是不计的。
五、模型準备
数据预处理:对于 50 辆车的预处理,我们采用对数据清洗、数据集成、数据变换、数据规约。在这里发现车辆左右转向灯几乎在数据中都为零,我们对这一异常值进行了着重处理,利用每一辆车的方向角,我们制定了转向标准并且结合经纬度在地图中对其进行了验证,发现在地图上的明显道路转弯处基本和所处理的异常值符合。
(1)在对车辆轨迹处理中,我们在对应的坐标下,不同车辆不同程度上都出现了轨迹偏离现象。我们采用均值滤器进行轨迹数据异常处理以及清洗。由于车辆传感器带来的噪声,所以车联网收集的数据并不精确。
(2)对于异常数据处理:通过对初始数据的整理,发现在行驶路程为0的情况下,仍然存在着行驶时间不为0的情况,将此数据进行删除。
(3)对于车辆转向的数据处理:通过GPS返回的数据,我们依据车辆方向角的变化统计出车辆是否进行了转向。
六、模型建立
(1)内在因素分析:疲劳驾驶处理
疲劳驾驶是驾驶人自身的行为,也会对交通拥堵造成内在的因素,我们取前二十辆车进行分析。可发现,驾驶者的疲劳驾驶程度与拥堵率是显著正相关的,即代表驾驶者的本身内在因素也影响着拥堵时间的变化。
经求解,对其进行t检验,判断总体P_Value,但这并不能说明回归方程中的每一项都是显著的,也不能说明各项之间完全非共线。
观察每个变量的方差膨胀因子VIF,均小于5,即经过问题一处理后的因子完全不存在共线性。然后观察每个指标的P_Value,各个影响拥堵时间的特征指标都大于0.05,是不显著的。在这里我们选取行驶路程和转向次数等这四个不显著的因子,取其次数都为二,然后进行逐步回归分析。
逐步回归:
步骤1:对我们所选取的5个回归自变量分别同因变量y(拥堵时间率)建立多元非线性回归模型。
计算变量Xi,相应的回归系数的 F检验统计量的值,记为,,取f其中的最大值。
对给定的显著性水平,记相应的临界值为,,则将Xi引入回归模型,记I1为选入变量指标集合。
步骤2:建立因变量Y与自变量子集的二元回归模型(即此回归模型的回归元为二元的),共有4个。计算变量的回归系数 F检验的统计量值,记为,选其中最大者,记为,对应自变量标记为i2。
对给定的显著性水平,记相应的临界值为,则变量引入回归模型。否则,终止变量引入过程。
步骤3:考虑因变量对变量子集的回归重复步骤2。
依此方法重复进行,每次从未引入回归模型的自变量中选取一个,直到经检验没有变量引入为止。
不难发现,在进行拥堵时间的预测上,逐步回归分析模型相对线性预测模型更加吻合真实数据。
经过对比:误差在逐步回归中得到了明显改善,提高了该预测模型的精确性。
最终得到关于拥堵时间的预测模型:
七、模型推广与改进
(1)对于数据预处理过程中坏值的数据记录,我们可以通过问题建立的拥堵时间预测逐步回归方程加以求解,完善问题中的数据样本,提高模型的可靠性。
(2)按照实际情况可知,天气因素必然会对拥堵时间产生一定影响。但是模型中并没有体现这一因素,可能受到其同类因素的干扰导致显著性不明显。
参考文献
[1]李琦.基于多源数据的交通状态监测与预测方法研究[D].吉林大学,2013年6月.
[2]David Hand,Heikki Mnnila.Padhraic Smyth数据挖掘原理[M].张银奎,廖丽,宋俊等译.机械工业出版社,中信出版社,2004
作者简介
张静茹(1999—),女,汉族,山东泰安市,本科,研究方向:农业APP设计与研发。