论文部分内容阅读
大数据时代,数据以ZB量级不断增长,但数据存储、管理、分析和应用的技术相对滞后,因此如何从海量数据当中提取有用的辅助决策信息(即如何把ZB量级的数据变成1比特的决策信息),成为当前学术界面临的重大挑战。可视分析(Visual Analytics)由于包括了信息获取、数据处理、知识表达、人机交互、协同分析推理、决策支持以及观点交流的完整过程而成为达到这一目标的理想工具。因此,本文在对交通大数据分析时,以地感线圈流量数据和出租车GPS轨迹数据为基础,针对交通状况、热点区域等问题使用聚类算法、可视分析方式深入研究浙江省嘉善县交通现状,找出嘉善县易拥堵的路段和热点区域分布,以便辅助交通管理部门进行决策研究。概括起来,论文的主要工作包括:(1)从智能交通的广泛应用,拥堵对城市造成的影响,以及可视分析的必要性等方面阐述了论文的研究背景与意义,从而得出研究本文的必要性;并分析总结交通数据预处理、交通数据可视化、热点区域可视分析的国内外研究现状,了解目前研究中存在的不足。(2)根据数据采集方式的不同对交通数据进行分类,对每一类交通数据的特点进行详细描述;着重介绍地感线圈流量数据和出租车GPS轨迹数据预处理的理论方法,并对数据进行清洗,与原始数据进行对比,判断预处理方法的有效性。(3)在对地感线圈流量数据和出租车GPS轨迹数据详细描述的基础上,使用这两种数据分别对交通状态进行分析。地感线圈流量数据通过可视化的方式直观分析嘉善县交通状况;使用出租车GPS轨迹数据的速度属性计算平均行程速度,结合天气数据,通过可视化的方式分析拥堵路段。两种方式相辅相成,相互补充,有效的分析了嘉善县的交通道路情况。(4)通过对热点区域基本概念与研究现状的总结分析,发现现存的热点区域判断方法不足。在此基础上,对聚类算法进行详细描述,并对基于层次方法中的单连接层次聚类法进行了优化,优化后的聚类方法得到的热点区域更为有效,从而更好的辅助交通管理部门了解管理交通状况。