论文部分内容阅读
车辆时空轨迹是指车辆随着时间的演变在空间中形成的轨迹,这些轨迹的组合反应了车辆的时空轨迹行为。全球定位系统(Global Positioning System,GPS)、无线通信、视频监控、车牌自动识别(License Plate Recognition,LPR)等技术都可用于记录和识别车辆在二维路网中的时空轨迹行为。在智能交通建设中,电子警察设备被广泛地安装在城市的重点路段、收费站及重要路口,通过车牌自动识别技术可以从这些设备获取的视频和图片中提取车辆牌照信息从而形成车辆时空轨迹行为数据。 这些大规模车辆时空轨迹行为数据在交通拥堵分析、智能行车路线推荐、可视化交通仿真等研究分析和管理应用上已较为成熟。但是,随着数据量的急剧增加,数据设备来源种类的增多,以及道路违法行为影响社会安全愈发严重,这些改变对数据管理和数据挖掘分析提出了诸多挑战和难题。本文面向大规模车辆时空轨迹行为数据挖掘和应用面临的挑战和难题,在轨迹行为数据质量提升、轨迹行为相似性计算和异常轨迹行为发现三个方面进行了一系列研究,其研究成果可概括为以下几点: 1.提出了基于频繁模式挖掘的车辆时空轨迹行为数据质量交叉提升模型 用于修复GPS轨迹数据的基于N次隐马尔可夫模型路网匹配算法,在处理车辆时空轨迹行为数据时效果较差,而通用的诸如ClaSP,CloSpan,GSP,PrefixSpan等序列挖掘算法一定程度上能够弥补路网匹配算法中存在的不可靠实体问题,但其存在计算量大、生成的无效频繁项多等问题,导致数据修复精确度低。本文提出了一种基于频繁模式挖掘的SFPGrowth算法,挖掘车辆轨迹点频繁序列集和轨迹点序列集置信度规则集,并提出了约束冲突识别算法(Constraint Violation Recognition,CVR1)和约束冲突修复算法(Constraint Violation Repair,CVR2),识别轨迹节点缺失、错误以及混合的错误节点数据,并对错误节点数据进行修复。约束冲突识别算法召回率达93.8%,准确率为93.7%,约束冲突修复算法准确率达85.1%,有效数据修复准确率为79.3%,算法在运算时间和准确率上有较大提升。 2.提出了基于支持向量机的车辆时空轨迹行为相似性计算算法 面向修正的车辆时空轨迹行为数据,提出了一种基于支持向量机的车辆时空轨迹行为相似性计算算法(Vehicle Spatial-temporal Similarity,VSTS),通过从车辆轨迹的时间和空间两个维度提取大规模特征,用以描述车辆轨迹行为全方位时空特征信息,将样本特征作为机器学习模型输入,利用支持向量机算法训练轨迹行为相似性计算模型。算法相较于常用的通过欧几里得距离、最小边界距离、隐马尔科夫模型、DTW、编辑距离等算法以及关键点和时间分段思想,在轨迹特征覆盖以及计算效率上,有较大改善。在此基础上,设计出一种黑车识别模型(Unlicensed Taxi Identification Model,UTIM)。模型在实际黑车判断中取得较好的效果,识别准确度达86.667%。 3.提出了伴随车和套牌车两类异常轨迹行为识别模型 将伴随车异常轨迹行为识别问题转化为序列模式挖掘问题,提出了一种基于时间序列分析的并行化伴随车辆智能识别模型,依据车辆时空轨迹序列的Apriori原理,结合Map/Reduce并行计算技术,挖掘车辆之间在不同时间片段轨迹内的伴随关联度,并进行规约排序,获取嫌疑伴随车辆对。相较于基于关联规则挖掘算法(AVD)、最长公共子序列算法(LCS)等传统方法在计算效率和精确率上有一定的提升。在套牌车异常轨迹行为识别处理上,提出了一种满足时空矛盾的并行化套牌车识别模型,利用车辆时空轨迹行为数据中的时间和空间两个维度属性,通过速度阂值来度量两个维度是否存在矛盾,以此作为嫌疑套牌的识别准则,同时利用Map/Reduce并行计算技术对海量数据进行并行加速处理,识别结果能够满足监管部门支撑要求。 4.对车辆时空轨迹行为数据分析方法进行应用实践 针对贵阳市车辆时空轨迹行为数据,在全市跨区域的13个机房273台服务器节点上构建了车辆时空轨迹大数据中心,进行应用分析实践。中心采取离线定时和在线实时的方式对10,000余个异源设备进行车辆时空轨迹数据抽取,采集数据量超过160亿条目,并采取统一的数据清洗、存储、数据质量交叉提升和数据访问处理,制定标准、安全和高效的数据规划,提供丰富的接口微服务和数据应用服务,包括车辆时空轨迹行为的相似性计算、黑车识别、伴随车发现、套牌车判别等多种基于机器学习、数据挖掘的接口和应用服务,为道路交通管理和公安打击犯罪提供有效支持。