面向大规模车辆轨迹行为的数据挖掘研究与应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:guangminghuayuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
车辆时空轨迹是指车辆随着时间的演变在空间中形成的轨迹,这些轨迹的组合反应了车辆的时空轨迹行为。全球定位系统(Global Positioning System,GPS)、无线通信、视频监控、车牌自动识别(License Plate Recognition,LPR)等技术都可用于记录和识别车辆在二维路网中的时空轨迹行为。在智能交通建设中,电子警察设备被广泛地安装在城市的重点路段、收费站及重要路口,通过车牌自动识别技术可以从这些设备获取的视频和图片中提取车辆牌照信息从而形成车辆时空轨迹行为数据。  这些大规模车辆时空轨迹行为数据在交通拥堵分析、智能行车路线推荐、可视化交通仿真等研究分析和管理应用上已较为成熟。但是,随着数据量的急剧增加,数据设备来源种类的增多,以及道路违法行为影响社会安全愈发严重,这些改变对数据管理和数据挖掘分析提出了诸多挑战和难题。本文面向大规模车辆时空轨迹行为数据挖掘和应用面临的挑战和难题,在轨迹行为数据质量提升、轨迹行为相似性计算和异常轨迹行为发现三个方面进行了一系列研究,其研究成果可概括为以下几点:  1.提出了基于频繁模式挖掘的车辆时空轨迹行为数据质量交叉提升模型  用于修复GPS轨迹数据的基于N次隐马尔可夫模型路网匹配算法,在处理车辆时空轨迹行为数据时效果较差,而通用的诸如ClaSP,CloSpan,GSP,PrefixSpan等序列挖掘算法一定程度上能够弥补路网匹配算法中存在的不可靠实体问题,但其存在计算量大、生成的无效频繁项多等问题,导致数据修复精确度低。本文提出了一种基于频繁模式挖掘的SFPGrowth算法,挖掘车辆轨迹点频繁序列集和轨迹点序列集置信度规则集,并提出了约束冲突识别算法(Constraint Violation Recognition,CVR1)和约束冲突修复算法(Constraint Violation Repair,CVR2),识别轨迹节点缺失、错误以及混合的错误节点数据,并对错误节点数据进行修复。约束冲突识别算法召回率达93.8%,准确率为93.7%,约束冲突修复算法准确率达85.1%,有效数据修复准确率为79.3%,算法在运算时间和准确率上有较大提升。  2.提出了基于支持向量机的车辆时空轨迹行为相似性计算算法  面向修正的车辆时空轨迹行为数据,提出了一种基于支持向量机的车辆时空轨迹行为相似性计算算法(Vehicle Spatial-temporal Similarity,VSTS),通过从车辆轨迹的时间和空间两个维度提取大规模特征,用以描述车辆轨迹行为全方位时空特征信息,将样本特征作为机器学习模型输入,利用支持向量机算法训练轨迹行为相似性计算模型。算法相较于常用的通过欧几里得距离、最小边界距离、隐马尔科夫模型、DTW、编辑距离等算法以及关键点和时间分段思想,在轨迹特征覆盖以及计算效率上,有较大改善。在此基础上,设计出一种黑车识别模型(Unlicensed Taxi Identification Model,UTIM)。模型在实际黑车判断中取得较好的效果,识别准确度达86.667%。  3.提出了伴随车和套牌车两类异常轨迹行为识别模型  将伴随车异常轨迹行为识别问题转化为序列模式挖掘问题,提出了一种基于时间序列分析的并行化伴随车辆智能识别模型,依据车辆时空轨迹序列的Apriori原理,结合Map/Reduce并行计算技术,挖掘车辆之间在不同时间片段轨迹内的伴随关联度,并进行规约排序,获取嫌疑伴随车辆对。相较于基于关联规则挖掘算法(AVD)、最长公共子序列算法(LCS)等传统方法在计算效率和精确率上有一定的提升。在套牌车异常轨迹行为识别处理上,提出了一种满足时空矛盾的并行化套牌车识别模型,利用车辆时空轨迹行为数据中的时间和空间两个维度属性,通过速度阂值来度量两个维度是否存在矛盾,以此作为嫌疑套牌的识别准则,同时利用Map/Reduce并行计算技术对海量数据进行并行加速处理,识别结果能够满足监管部门支撑要求。  4.对车辆时空轨迹行为数据分析方法进行应用实践  针对贵阳市车辆时空轨迹行为数据,在全市跨区域的13个机房273台服务器节点上构建了车辆时空轨迹大数据中心,进行应用分析实践。中心采取离线定时和在线实时的方式对10,000余个异源设备进行车辆时空轨迹数据抽取,采集数据量超过160亿条目,并采取统一的数据清洗、存储、数据质量交叉提升和数据访问处理,制定标准、安全和高效的数据规划,提供丰富的接口微服务和数据应用服务,包括车辆时空轨迹行为的相似性计算、黑车识别、伴随车发现、套牌车判别等多种基于机器学习、数据挖掘的接口和应用服务,为道路交通管理和公安打击犯罪提供有效支持。
其他文献
本文以测量得到的曲面数据点点云为基础,提出了一种基于包围盒的自动寻找三维散乱数据点之间拓扑结构的方法,采用该方法寻找采样点的邻域结点,并对三角剖分中的典型优化准则—最
本文主要针对大规模地形模型的生成与显示技术,总结了大规模地形模型细节层次显示技术的基础理论, 并且对基于三角剖分和基于树结构的层次模型进行了研究。通过改造和创新形
软件需求分析是软件生命周期的开始.在现代软件开发过程中,需求分析占有特别重要的地位.计算机辅助需求分析是CASE的一个重要研究领域.需求分析工具用于软件工程的需求分析阶
随着计算的发展,计算变得越来越自由,在资源使用方面也越来越灵活,将逐渐呈现出普及计算的模式,用于普及计算的终端设备将变得无所不在。移动终端是普及计算终端的重要内容。由于
该文根据国内外已有的研究成果及应用情况,系统地研究了两类分布式高性能计算环境中基于任务复制的遗传调度算法,并在模拟环境中研究了算法的性能.其主要贡献在于:1)针对遗传
随着网络技术的飞速发展和广泛应用,信息安全已经成为关乎个人权益乃至国家安全的重要问题。密码学作为解决这类问题的基础学科,受到国内外学者的普遍关注。密码分析是密码学研
作为传统公钥密码和基于身份密码学的扩展,基于属性的密码学利用属性来描述用户权限,提供了非常灵活的操作关系。在基于属性的加密(ABE)机制中,密文和密钥都与属性相关,加密者可
随着数据仓库的广泛建立,数据仓库系统的核心—用于数据仓库数据加载和刷新维护的ETL工具越来越重要.市场上存在大量的ETL工具,这些ETL工具采用不同的实现技术,对应的ETL过程
密码学是解决信息安全问题的主干学科,能够有效地保护网络中的信息资源免受各种类型的威胁、干扰和破坏。作为其中的重要组成部分,对称密码不仅是许多安全系统的核心要素,而且是
市场竞争的日益激烈,使越来越多的企业深刻认识到:客户服务是赢得客户满意的至关重要的手段.因此呼叫中心应运而生,成为现代企业提高企业形象、与客户双向交流、解决客户的问