论文部分内容阅读
随着近年来机动车保有量的持续增加和城市公共交通系统的逐步完善,渐渐积累了海量的交通定位数据。在如今的大数据时代,结合可视化和可视分析的方式可以有效的摸索出城市道路的通行规律,但是,由于采集设备故障和传输网络延迟,原始交通定位数据中散布着大量脏数据,而传统的数据清洗工具主要应用在小规模的结构化数据上,面对海量存储且高维度的交通定位数据已难以应付。为了解决上述问题,本文设计了一种基于web平台的数据可视清洗系统,对不同种类的脏数据给出了不同的检测和处理方法,并通过人机交互的方式,让用户控制脏数据检测的手段和清洗的强度。本文的主要工作和成果如下:(1)非异常脏数据清洗。本文将交通定位数据的非异常脏数据种类分为属性缺失数据、重复数据和错误数据,并分别为其选取了不同的检测方法和清洗手段,保证了各种非异常脏数据都能得到合理有效的处理。(2)异常数据检测与处理。针对数据库无法识别的异常数据,系统首先利用多种可视化视图组件方便方便用户进行探究,然后提供异常数据的挖掘和处理工具,结合多种交互方式,从多个角度对数据的异常可能进行判定。(3)数据可视清洗系统架构设计。系统搭建基于B/S架构设计,运行时不必局限于指定的操作系统和运行环境,在清洗操作前完成了多项预处理工作,在浏览器绘制中,引入了React.js技术加速绘制,有效提高了可视分析的效率,减少了用户的使用成本本文最后以杭州市出租车GPS数据为例,结合本文系统提供的数据清洗方法和功能,对其做了全面有效的清洗工作,利用速度流量像素图的效果变化验证了系统的有效性,最后,利用脏数据的分布规律为其产生原因的探索工作提供参考。