论文部分内容阅读
摘要 K近邻非参数回归算法建立在歷史数据库、搜寻机理和算法参数以及预测函数的基础上。首先需要对原始数据进行预处理,对有效的数据标准化避免样本数据过大的影响,从而提高其预测的精确度。最后,在MATLAB平台上开发基于K近邻非参数回归的算法模型用于预测短期交通流。
关键词 K近邻非参数回归;短期交通流;实时交通状态
1 历史数据库建立
1.1数据预处理
K近邻非参数回归预测算法的准确度很大程度上由样本数据的质量决定。为了得到流线型有效的历史数据库,采集的城市高速路段的基本数据(交通流、交通密度、交通速度)需要预先处理,过程如下:
(1)检查数据的完整性
(2)交通流数据取值的合理性:行车总量Volume、速度Speed、车道占用率Occupy
1) 行车总量范围
式中: 为修正系数,CAP为道路通行能力,T为数据采集周期(分)
2)平均速度范围
式中, 是该道路限定的速度, 是修正系数, 是1.3-1.5间的随机数
3)车道占用率范围
根据以上的阈值限定异常的数据会被去除,并采用数值插值的方法来替补相邻的数据。
(3)验证数据的一致性
若行车总量和行驶速度不为零,但结果为零则去除该数据。
(4)数据修复
如果修复的数据是不能被验证正确的,则数据将不被修复。
1.2数据标准化
数据预处理后,对交通流数据进行标准化处理,从而减小预测偏差,提高预测准确性,此处采用行车总量Volume为例进行数据标准化处理。
式中, 是标准化后的数据,变化范围在[0,1]; 是第j天最大的行车总量, 是第j天最小的行车总量,n是样本总天数。
2 搜寻机理及算法参数
2.1预测时间间隔
介于交通控制时间周期在2.5-3分钟间,交通诱导周期一般为5分钟,确定预测时间(5分钟内)预测交通流是交通控制和交通诱导的关键。本文采用5分钟作为预测间隔时间。
2.2状态向量和滞后值q
状态向量是用于比较所观察到的数据和历史数据库,其最终将影响邻近的子集,这直接关系到预测精度值的标准。车辆占用率取决于交通流和速度,因而在速度稳定的模型中交通流趋势的基本相似。在一定范围内,交通流和速度的低相关性显示车辆占用率和交通流实质上是相同的。因而,交通流定为状态向量。
连续时间滞后值q被选择为一个状态向量,以匹配的历史数据,避免当前观测数据与历史数据库比较时造成过度的类似值。
连续时间流t,t-1,t-2……t-q定义为状态向量 。
3 预测算法
经过上述匹配机制后,假定在历史数据库中找到了k个近邻的数据,实际数据和k近邻数据距离为 ,接着下一时段的交通流为 。目前广泛使用的预测算法是用非加权和算法加权算法。非加权的算法计算如下:
加权算法计算如下:
K近邻预测机理的预测显示了标准化的数据,因而需减少模量数据。标准化数据和模量数据之间的转换公式如下所示。数据标准化避免了样本数据和预测误差的量值差,从而使预测精度可以得到改善。
式中, 标准化的预测数据, 是预测数据。
4 总结
由于交通流量的不确定、非线性和复杂的特性,K近邻非参数回归模型方法更为有效的达到预测短期交通流的效果。非参数回归作为一种无参数、可移植、高预测精度的算法,它的误差比较小,且误差分布情况良好。从理论上来说,只要存在满足要求的历史数据库,任何路况下都能进行预测。在实际应用中,如果该路段的常年流量都较大,并且时常会有异常路况出现,那么采用非参数回归预测的优势是最明显的。数值实验结果表明,基于k-NN非参数回归的城市快速路交通流预测方法的准确性超过90%,而这也证实了用于短期交通流预测方法的可行性。
作者简介:范维娜(1992-),女,浙江宁波人,本科生,研究方向智能交通车路协同技术([email protected])本文为2014年湖南省创新训练项目
关键词 K近邻非参数回归;短期交通流;实时交通状态
1 历史数据库建立
1.1数据预处理
K近邻非参数回归预测算法的准确度很大程度上由样本数据的质量决定。为了得到流线型有效的历史数据库,采集的城市高速路段的基本数据(交通流、交通密度、交通速度)需要预先处理,过程如下:
(1)检查数据的完整性
(2)交通流数据取值的合理性:行车总量Volume、速度Speed、车道占用率Occupy
1) 行车总量范围
式中: 为修正系数,CAP为道路通行能力,T为数据采集周期(分)
2)平均速度范围
式中, 是该道路限定的速度, 是修正系数, 是1.3-1.5间的随机数
3)车道占用率范围
根据以上的阈值限定异常的数据会被去除,并采用数值插值的方法来替补相邻的数据。
(3)验证数据的一致性
若行车总量和行驶速度不为零,但结果为零则去除该数据。
(4)数据修复
如果修复的数据是不能被验证正确的,则数据将不被修复。
1.2数据标准化
数据预处理后,对交通流数据进行标准化处理,从而减小预测偏差,提高预测准确性,此处采用行车总量Volume为例进行数据标准化处理。
式中, 是标准化后的数据,变化范围在[0,1]; 是第j天最大的行车总量, 是第j天最小的行车总量,n是样本总天数。
2 搜寻机理及算法参数
2.1预测时间间隔
介于交通控制时间周期在2.5-3分钟间,交通诱导周期一般为5分钟,确定预测时间(5分钟内)预测交通流是交通控制和交通诱导的关键。本文采用5分钟作为预测间隔时间。
2.2状态向量和滞后值q
状态向量是用于比较所观察到的数据和历史数据库,其最终将影响邻近的子集,这直接关系到预测精度值的标准。车辆占用率取决于交通流和速度,因而在速度稳定的模型中交通流趋势的基本相似。在一定范围内,交通流和速度的低相关性显示车辆占用率和交通流实质上是相同的。因而,交通流定为状态向量。
连续时间滞后值q被选择为一个状态向量,以匹配的历史数据,避免当前观测数据与历史数据库比较时造成过度的类似值。
连续时间流t,t-1,t-2……t-q定义为状态向量 。
3 预测算法
经过上述匹配机制后,假定在历史数据库中找到了k个近邻的数据,实际数据和k近邻数据距离为 ,接着下一时段的交通流为 。目前广泛使用的预测算法是用非加权和算法加权算法。非加权的算法计算如下:
加权算法计算如下:
K近邻预测机理的预测显示了标准化的数据,因而需减少模量数据。标准化数据和模量数据之间的转换公式如下所示。数据标准化避免了样本数据和预测误差的量值差,从而使预测精度可以得到改善。
式中, 标准化的预测数据, 是预测数据。
4 总结
由于交通流量的不确定、非线性和复杂的特性,K近邻非参数回归模型方法更为有效的达到预测短期交通流的效果。非参数回归作为一种无参数、可移植、高预测精度的算法,它的误差比较小,且误差分布情况良好。从理论上来说,只要存在满足要求的历史数据库,任何路况下都能进行预测。在实际应用中,如果该路段的常年流量都较大,并且时常会有异常路况出现,那么采用非参数回归预测的优势是最明显的。数值实验结果表明,基于k-NN非参数回归的城市快速路交通流预测方法的准确性超过90%,而这也证实了用于短期交通流预测方法的可行性。
作者简介:范维娜(1992-),女,浙江宁波人,本科生,研究方向智能交通车路协同技术([email protected])本文为2014年湖南省创新训练项目