论文部分内容阅读
交通数据的采集和处理技术是智能交通系统的关键性技术,无线电和计算机技术的蓬勃发展使得RFID (Radio Frequency Identification)检测技术作为一种新型检测技术广泛应用于道路交通数据采集。但是,由于RFID检测设备故障、通信系统故障及环境因素等异常原因,采集到的交通数据存在冗余、遗漏、错误和不精确等问题,如果将这些有质量问题的数据直接应用于交通状态估计、预测及评价,必然会产生不稳定因素,影响交通状态估计、预测及评价的效果,并进一步影响交通管理和公众出行信息服务的质量,因此十分有必要对RFID交通数据进行清洗,清除异常数据。基于上述问题,本文对RFID交通数据清洗技术进行研究,主要研究内容如下。首先,在数据清洗文献研究的基础上,介绍了RFID技术基础,研究了RFID系统组成、数据采集系统的工作原理、RFID采集平台的架构以及RFID采集系统的逻辑框架和物理框架,并介绍了南京市RFID数据概况,确定了实例分析中所用的数据采集区域,数据量和数据的属性与结构,这为分析数据问题产生的原因并提出相应的解决办法提供了很大帮助。其次,介绍了RFID错误数据清洗,错误数据检测和处理主要是针对车牌号码,根据车牌号码的编排规则归纳出采集数据中的四类车牌错误,利用聚类法检测出错误数据,统计错误数据的数量,计算错误率,分析错误数据的时空变化规律。接着,介绍了RFID冗余数据清洗,冗余数据分为重复数据和相似数据,冗余数据检测和处理主要针对过车时间和车牌号码两个属性,利用排序对比的方法检测出冗余数据,统计车牌号码相同的车辆过车时间分别相差1s—300s的数据量,计算冗余率,做出折线图,将冗余率趋于平缓的点对应的时间确定为冗余时间点,对于冗余时间点内的数据,保留第一条数据,删除其余数据,对于冗余时间点以外的数据,保留数据,不删除。再次,介绍了RFID缺失数据清洗,缺失数据检测和处理主要是针对过车时间,根据统计缺失数据的时间汇集度的长短可分为月缺失量、日缺失量、小时缺失量等,分别计算基站的月、日、小时、30min、15mmin、10min、5min、lmin缺失率,根据缺失率随时间的变化趋势确定基站的缺失率。另外,基于以上分析思路、分析方法、分析流程,论文归纳总结了RFID原始交通数据清洗中可能出现的共性问题,提出一种较为通用的RFID交通数据清洗方法,包括数据问题分类、数据问题检测、数据问题分析和数据问题处理,建立一套完整的RFID交通数据清洗技术体系。数据清洗是开展相关数据研究、应用的首要工作,其重要性可见一斑,最后,论文对未来的研究方向进行了展望。