车辆出租管理中的轨迹异常检测研究——基于聚类和单分类算法

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:fanjie51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着位置采集和移动通信技术的不断进步,每天有大量的轨迹数据被采集并收录,因此在过去的十数年中,轨迹数据挖掘工作进展迅速,而异常轨迹检测是其中很重要的一部分。目前中国的汽车保有量、销售量都位于世界前列,与此同时,国家重大专项中的车联网项目正在大力发展中,车辆轨迹数据是日常能接触到的最广泛、最普遍的轨迹数据之一。本文研究的问题是通过轨迹数据挖掘来进行轨迹异常检测,即使用一个地区车辆出租公司出租出去的车辆传回的轨迹数据来检测异常车辆行为,进而尝试评估该车辆是否有丢失风险,达到减少车辆出租公司发生车辆丢失事件的损失的目的。由于本文所研究的是一个无监督的异常检测问题,故而提出两种思路:聚类和单分类。本文在聚类思路上使用豪斯多夫距离来计算轨迹相似度形成距离矩阵,再利用轨迹距离矩阵来进行DBSCAN聚类;在单分类思路上从轨迹中提取十个经纬度坐标作为特征,并赋予不同位置的点不同权重,使得轨迹末端的点在模型中影响力更强,以此加入轨迹的时间因素。本文所用数据为一家苏州分公司出租出去的210辆车连续6天内实时传回的每日约90万条数据GPS定位数据,包括经纬度、车号、传回时间和车辆时速。目前车辆轨迹异常检测的实际应用存在一些技术难度,如GPS定位漂移导致轨迹点的偏差、每条轨迹包含的轨迹点数量巨大等,针对以上问题,本文在轨迹预处理阶段,增加了数据清洗和轨迹压缩步骤。数据清洗去掉了由于GPS定位漂移而产生的轨迹明显偏离道路的问题;使用道格拉斯算法的轨迹压缩使得轨迹长度大幅缩短,但压缩前后轨迹差别很小,节省了大量后续计算时间,同时最大限度保证了数据的完整性。目前车辆轨迹异常检测用于防止车辆丢失这一现实问题上的研究较少,因此本文对其进行了探索。本文使用DBSCAN聚类,单类支持向量机模型和孤立森林模型三种方法对经过预处理后得到的210条轨迹进行建模,模型更新方法为:如果该车辆前一天的轨迹被判定为正常,则次日使用当天的轨迹作为输入;如果该车辆前一天的轨迹被判定为异常,则次日使用前一天的轨迹和当天的轨迹共同作为输入,意在用每日新增的车辆轨迹数据对模型进行修改。模型评估部分,在以上三种模型对比人工判断的对异常轨迹查全率指标上,DBSCAN聚类略优于孤立森林,都在90%以上,单类支持向量机表现最不好;而在以上三种模型给车辆的判定结果对比车辆真实情况的假阳性率指标上,孤立森林和DBSCAN聚类在训练集、测试集上都为0,仔细对比二者的混淆矩阵孤立森林稍优于DBSCAN聚类,而单类支持向量机表现最差。另外,由于DBSCAN聚类计算轨迹距离矩阵的时间相对耗时耗内存,而且每进入一条新轨迹需要重新聚类,聚类结果不能存储,所以在计算成本方面不如孤立森林模型。因此本文的研究结论为孤立森林更适用于轨迹异常监测防止车辆丢失这一现实问题。本文的创新点有以下两点:首先在研究问题上有所创新,现有对利用轨迹监测车辆丢失风险这一现实问题的研究不足,本文采用了聚类和单分类两种思想来进行轨迹异常检测;其次在轨迹的时间因素上有所创新,使得每一条轨迹不同轨迹点在模型中的重要程度随时间延长而变大,同时提出了一种模型更新的方法。本文的意义在于利用统计知识来对监测车辆丢失风险提出了一种可行且有效的方案,即使用模型来进行轨迹异常检测,这改变了以往人工监测的方式带来的一些不确定性和偶然性,同时减小了人力劳动的工作量。
其他文献
近年来,中国地方政府债务迅速增长,政府债务在补缺口、强基建和促发展等方面发挥了积极的作用,但由于规模增长快,债务风险不断累积,且越来越突出,已成为我国经济可能的“灰犀牛”。与此同时,地方政府债务扩张所产生的巨额资金需求可能会通过金融市场的传导影响公司部门的融资需求。全社会的资金资源在整体上是有限的,当地方政府的融资需求大幅上升以及地方政府的信用较好,银行会偏向选择地方政府,一定程度上挤占原本属于公
学位
代谢组学是生物流体或组织中低分子量代谢物动态变化的量度。代谢组学研究的基本策略为基于高通量分析技术量测的高维数据的获得和基于化学计量学方法的代谢组学数据解析。此类数据通常具有小样本、高维、高噪和易含奇异样本的特性。化学计量学在代谢组学数据解析中的两项主要任务为识别各组之间的代谢差异(即模式识别)并筛选出表征各组之间代谢差异的潜在的重要生物标志物(即变量选择)。近年来,分析技术平台的不断发展导致生成
学位
在金融市场中,波动率不仅是衡量风险的指标,它对衍生品定价和资产配置都至关重要,因而对于波动率的研究一直是金融研究领域当中的较为热门话题。在对波动率的研究上,一些学者采用了文本情感分析的方法,通过词频统计模型探究与波动率的关系。然而,词频统计模型因其无法联系上下语义的局限性,语义捕捉能力较差,降低对波动率的解释效力。此外,而在对波动率预测的研究上,之前的研究集中在对低频收益率数据拟合而成的GARCH
学位
在语言学的定义里,新词是指一个最近铸造的发明词或者词组,可能来源于新事物的产生、方言的吸收、简略词汇、外来语等。当今互联网时代下,大量的中文新词会在不同背景的碰撞下产生并借助网络的力量迅速传播开来。由于中文里没有明显的界限符,所以在英文中不存在的分词问题在中文里却是很重要的一步。未登录词是影响分词准确率的重要因素,新的未登录词及其变体层出不穷,依靠人力去构建词库费时费力,因而使用某些方法让计算机自
学位
在中央经济工作会议提出的“六稳”方针中,“稳金融”的底线是要求不发生系统性金融风险,并稳步推动金融市场的发展。商业银行作为核心金融机构,其信贷风险管理质量对金融市场的稳定有重大影响,特别是随着近年来中小企业的快速发展及其伴随而来的银行信贷资源需求与日俱增,中小企业的信贷风险管理逐渐成为商业银行信贷风险管理之重点。信贷风险评价体系作为商业银行信贷风险管理的基础性环节,直接关系到信贷风险管理质量。商业
学位
近年来,随着深度学习算法的效果变得越来越好,许多学者开始着眼于深度学习算法的稳定性。其中的一个方向叫对抗样本。对抗样本是指在原始数据上添加一个特定的噪声(噪声的比例越小越好,能被模型识别而不被人眼察觉)使得损失函数最大化,所形成的输入样本,会导致模型以大概率给出一个错误的结果。对抗样本的生成又被称为对抗攻击。现如今,深度神经网络已经成为了人们生活中不可或缺的一部分,人脸识别、语音转文字等都是日常生
学位
报纸
医疗搜索作为广大群众搜索场景下的刚需,是普通用户获取优秀医疗资源最为便捷的渠道。医药领域数据的爆发式增长给研究人员提供了丰富的知识,是重要的研究资源。医疗搜索的重点就是从海量庞杂的医药领域数据中快速高效地获取信息,而命名实体关系抽取就是文本数据处理工作中一项基础且重要的环节。在医药领域内,准确识别说明书中的禁忌症和适应症实体对于构建合理用药规则,构建完善的医药领域知识库有重要意义。但是,由于医药领
学位
多重检验是目前高维统计推断的领域中研究的热点之一,并在临床医学、基因检测、教育学等多领域中均有广泛的应用。同时对多个假设进行检验是多重检验的实质,它常常被用来对来自大量总体的某个参数或多个参数的水平进行比较。当多重检验中的一个假设被拒绝,我们通常希望对该参数构造置信区间,从而确定该假设对应真值的取值范围。我们将多重检验中被拒绝的假设对应的参数称为选择后参数,为选择后参数构造能控制FCR的置信区间也
学位
“碳标签”(Carbon Labelling)是一种将商品在生产、流通过程中排放的温室气体排放量,在产品标签上用量化指数标示出来的方法。全球已有11个国家正在积极建立“碳标签”制度。我国也已经形成了相关的团体标准和试点成果。“碳标签”的形成涉及产品生产、加工、流通过程中的多个环节,导致碳数据归集困难、真实性难以保障和易被篡改。为此,本文提出一种基于区块链和隐私计算技术,从供应链的视角构建“碳标签”
期刊