基于K匿名隐私保护模型的卡口车牌识别数据脱敏技术研究

来源 :交通科技与管理 | 被引量 : 0次 | 上传用户:yhj740821
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:在公安交通管理领域,卡口车牌识别数据包含信息量齐全、准确,受到广泛地采用,但是该数据在使用过程中也容易造成个人隐私信息泄露。为研究研究卡口车牌识别数据中的隐私披露风险,减少卡口车牌数据在使用过车中造成的信息泄露,本文基于K匿名隐私保护模型,对卡口车牌识别数据中的隐私泄露风险进行分析和研究,提出常用脱敏手段和方法。并以广州市卡口车牌识别数据作为实例进行分析计算,提出具体的数据脱敏措施,在分析计算中发现:时间分辨率与的隐私保护程度成正比,而与信息保存率成反比。在本文的结尾提出了该算法存在的不足,并指明未来进一步深入研究的方向。本文对相关领域人员进行数据脱敏研究具有一定的借鉴意义。
  关键词:交通管理数据;卡口车牌;数据脱敏;匿名隐私保护;时间分辨率
  0 引言
   随着政府信息化的不断深入,公众的个人信息被信息化系统(如视频卡口监测系统)广泛采集。在公安交通管理领域,卡口车牌识别数据作为位置数据的典型组成,记录了车辆车牌号、车牌颜色、行驶方向等信息,并标记了图像采集的卡口位置,车辆的历史轨迹通过一系列由卡口和经过时间的时间-空间二元元组重构。近年来,车牌识别数据因其数据采集率高、覆盖范围广和数据准确率高等优势而受到研究者们的广泛关注。例如,GY Jiang和AD Chang等结合车牌识别数据监测交通拥挤[1],H Chen和C Yang等学者利用车牌识別数据研究个体时空交通行为等[2]。随着第三方研究机构对卡口车牌识别数据研究需求的不断增长,随之而来的隐私问题则成为了人们关注的焦点。因此,研究卡口车牌识别数据中的隐私披露风险,探究车牌识别数据的脱敏技术和隐私保护方法具有重要意义。本文基于K匿名隐私保护模型,来探讨卡口车牌识别数据中的隐私泄露风险和相关脱敏手段和方法。
  1 K匿名隐私保护模型
   经过匿名化处理发布的数据集,一般为数据表形式:表中的每一条记录对应一个个体,包含多个属性值,属性值包含个体多方面的信息。这些属性可以分为三类:
   (1)标识符(Identifier):能唯一标识单一个体的属性,如姓名、身份证号码和车牌号等。在数据表中删除标识符或匿名化处理在一定程度上可以达到隐私保护的目的。
   (2)准标识符(Quasi-Identifier, QI):数据表中若干属性的组合,这些组合能够同外部信息结合链接,对个体重新标识,识别出主体身份。
   (3)敏感属性(Sensitive Attribute):包含隐私信息的属性,如疾病、薪资,家庭住址等。
   例如,在匿名化隐私数据表1中,通过删除姓名属性和社会保险代码两种标识符属性,数据被初步匿名化。但表中还包含种族、生日、性别和邮政编码等一般属性和婚姻状况、患病情况等敏感属性,这些属性能够被链接到非匿名化的公开候选人情况(含姓名、地址、所在城市、婚姻状况、性别、出生日期、邮政编码等属性),从而泄露个体的婚姻状况、患病情况等敏感信息。如在候选人列表中,在San Francisco的一位离婚女性,出生日期为64/09/27,该记录在匿名化医疗信息表中是唯一的,通过表1的链接,尽管在医疗信息表中并未包含标识符属性,仍然容易推算该女性为Susan,同时也获取到了她的敏感信息——患艾滋病。
   针对此问题,2002年Sweeney L提出了K-anonymity隐私保护模型[3]。在K匿名性的约束下,数据集中的任意个体应该至少与其他K-1个个体是不可区分的。具体的,K-anonymity的定义如下:
   K-anonymity:给定数据表,是与相关联的准标识符,当且仅当在中出现的每个值序列至少要在中出现K次,则满足K-匿名。表示表的元祖在准标识符上的投影。
   在匿名化医疗信息表1中,准标识符为{种族,出生日期,性别,邮政编码,婚姻状况},该表满足K匿名当且仅当K=1。通过对表1的出生日期、邮政编码属性进行匿名化处理,即将出生日期后3位匿名化(如64/09/27处理为64/0*/**)、将邮政编码后两位进行匿名化(如94139处理为941**)得到匿名化处理后发布的数据表,准标识符依然为{种族,出生日期,性别,邮政编码,婚姻状况},K=2。在这种情况下,Susan的隐私信息就不能通过与外部信息的链接而被唯一的标识,也就达到了隐私保护的效果。
   相应的在车牌识别数据集中,对某辆车的出行轨迹,从中选取若干记录组成其准标识符,根据准标识符在其他车辆轨迹集合中的出现次数确定该车的个体匿名性界定其个体隐私披露的风险。
  2 测试数据集介绍
   本案例基于广州市卡口车牌识别数据集。数据集记录了广州市主要视频监测卡口和各个时间段的车辆车牌识别数据。本案例从完整数据集中随机选取10万辆车约700万条数据记录。视频卡口主要集中分布在广州内环路附近及中心城区。卡口过车记录包含了有关车辆行驶信息和位置信息的若干属性,其中车牌信息已经经过MD5匿名化处理。表2列出了某原始记录的各个字段。
   从表中可以看出,原始的车牌识别数据记录中的时间信息精确到秒,这样的时间分辨率足以让数据集中的每一辆车都被唯一的标识,而且对于大多数交通领域的研究比如交通流量的统计等,如此精确的时间分辨率也带来冗余的信息。为此,本案例通过时间维度上的聚合将1天24小时转换为若干相同时间间隔t的时间段。例如设置时间聚合度t为2 h,则意味着通过聚合2017-03-01 00:00:00至2017-03-01 02:00:00的记录为一个统一的THROUGHTIMEID: 101,依次类推,THROUGHTIMEID: 1509就代表2017-03-15 16:00:00至2017-03-15 18:00:00时间段内数据记录的时间戳。本案例考虑了5个级别的时间聚合度t:0.5 h、1 h、3 h、6 h、12 h。   3 結果分析
   具体的,对于某车辆,从该车的出行轨迹中随机采样的方式得到其相应的准标识符,遍历所有车辆的出行轨迹集合,统计轨迹中包含的个体车辆集合为该个体的匿名性集合,个体匿名性集合中所包含的车辆数则为的匿名性,遍历发布车辆集合中的所有个体得到所有个体的匿名性列表K。具体实现如下。
  
  
   基于此算法,在时间聚合度t为0.5 h,1 h,3 h,6 h和12 h,5个级别的时间分辨率下,选取不同的记录数,组成准标识符,标识统计数据集中个体的匿名性。为了更好的体现不同时间分辨率及不同记录数标识下个体匿名性的差异,直观地分析时间分辨率对个体匿名性的影响,然而随着准标识符记录数的增加,个体匿名性呈现显著的下降趋势。为了更直观的揭示准标识符长度即标识记录数对个体匿名性的影响,本案例选定时间分辨率为12 h,选用不同数量记录来标识个体匿名性,绘制被唯一标识的个体的占比情况,误差线代表99%的置信区间。尽管时间分辨率已经被粗化到12 h,仍然有将近90%的车辆能够被5个时空轨迹点唯一的标识。这意味着,车牌号码经过脱敏处理的卡口车牌识别数据仍然隐含着巨大的隐私泄露风险,这也说明了对于卡口车牌识别数据集,通过简单的MD5等手段对车牌号码进行转换来实现数据脱敏是远远不够的。
  4 总结
   本研究针对公安交通管理领域的交通数据,研究数据脱敏方法与技术,从数据脱敏的技术现状和政策要求来看,尽管国内对数据安全和隐私保护做出了一些规定,但在交通数据方面,这样的规范和行业标准却相对缺乏。本文揭露了卡口过车记录数据集中的个体由于被重标识而导致隐私泄露的风险。探究不同时间分辨率下的个体隐私泄露风险的程度,这为个体隐私保护提供了思路。更大的时间分辨率意味着更高程度的隐私保护程度,同时也意味着更多的信息损失。为此,未来的方向将会在隐私保护算法的设计,其能够针对不同的数据脱敏程度要求,对数据进行脱敏,以求达到个体隐私保护和数据效用的均衡。
  参考文献:
  [1]Gui-Yan,Jiang,C.An-De,and N.Shi-Feng.“Traffic congestion identification method based on license plate recognition data.”Journal of Harbin Institute of Technology 43.4(2011):131-135.
  [2]Chen,Huiyu,Chao Yang,and Xiangdong Xu.“ClusteringVehicle Temporal and Spatial Travel Behavior Using License Plate Recognition Data.” Journal of Advanced Transportation 2017(2017).
  [3]Sweeney,Latanya.“k-ANONYMITY:.”International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems10.05(2008):557-570.
其他文献
摘 要:本文提出了用单位质量人工砂中油性碳物质悬浮物面积的概念来评价某种物质的含量。该方法与传统的质量比、数量比或体积比法得到的结果相关性较好,重复性试验误差小,结果可靠,且試验成本和试验周期要远低于传统方法。测得的结果可用于评价人工砂的品质,为生产质量控制提供必要的手段。  关键词:悬浮面积法;油性碳物质;人工砂  0 引言   两河口水电站人工骨料加工过程中发现,人工砂用水浸泡后水面存在黑色
期刊
摘 要:社会快速发展的时代背景下,为满足发展需要我国交通工程数量也在不断增多,这使得交通工程施工企业获得了新的发挥机遇。但需要注意的是,现阶段我国交通工程施工企业内部人力资源管理过程却突显出了诸多问题。本文简述了交通工程施工企业人力资源管理的特殊性,并就其现阶段所存在的管理困境进行了深入分析,提出了几点与之相对应的管理对策,希望能够为同行业工作者提供一些帮助。  关键词:交通工程施工企业;人力资源
期刊
摘 要:城市化建设进程的加快,使得城市基础设施以及工程建设随之飞速发展。目前,在现代化测量技术逐步提升下,GPS-RTK技术也逐渐进入人们的视野,并将其广泛应用到各项测绘活动中,发挥出重要作用。而地籍测绘作为国城市建设以及国土资源管理工作中的重要内容,将GPS-RTK技术应用其中,具有显著的效果,推进了地籍测绘项目高效开展。本文在GPS-RTK测量技术原理基础上,具体分析了地籍勘测中GPS-RTK
期刊
摘 要:为解决物联网和工业设备不同接口无法直接进行数据交互的问题,设计了一种基于ZYNQ7035的多接口交换板。该接口板具备多种常用工业接口,可实现不同接口之间数据透传,试图解决物联网、工业设备不同接口数据交互的痛点。  关键词:ZYNQ7035;FPGA;接口交换;工业接口;物联网  0 引言   目前存在的大量工业设备中,硬件接口多种多样,通信方式和软件协议各不相同。仅常用的接口形式就包括E
期刊
摘 要:众所周知,市政工程涵盖的内容是比较多的,包含城市建设过程中的给水、排水、煤气和电力等等,与广大人民群众的日常工作和生活具有比较强的联系,其重要性自然不言而喻。就目前来看,运用相关的技术促使市政工程的整体质量得到提升、延长使用寿命、提升性价比是具有充分的必要性的,其中GPS-RTK技术在市政工程测量中的应用正是有效技术之一,因此在后续的市政工程建设过程中需要强化GPS-RTK技术的应用,并且
期刊
摘 要:交通工程质量监督是政府监督单位为了及时了解建设项目基本情况,建设进度,针对项目特点、重点及难点加强过程质量监督及提出相关控制要求,把握项目隐蔽工程的薄弱点;及时发现问题,并解决问题于萌芽状态,尽可能地减少项目的质量风险及减少返工成本。监督检查过程中施工工艺的检查尤为重要,一般建设工程工艺检查包括路基工程、路面工程、桥梁工程、隧道工程及交通安全设施工程;这些单位工程中也有工艺检查的相同点和不
期刊
摘 要:为提升公路工程造价管理水平,分析了公路工程造价特点、影响因素及全过程造价管理的优缺点,随后针对决策阶段、设计阶段、施工阶段、决算阶段分别提出了造价管理措施,研究成果可为类似的公路工程造价控制提供一定的理论指导。  关键词:公路;全过程;造价管理;方法  0 引言   随着基础交通网络的不断完善,公路项目的建设规模也逐年增加。同时,公路项目往往建设规模大、投资高、技术复杂等,如果造价控制不
期刊
摘 要:针对工程项目实际情况,对其大断面矩形顶管施工进行分析,并提出行之有效的地表沉降控制措施,旨在为工程施工及地表沉降的控制和其它类似工程项目大断面矩形顶管施工提供参考依据。  关键词:大断面矩形顶管法;地表沉降;沉降控制   伴随现代化城市快速发展,地下建设工程的规模和数量都在不断增加,在这种情况下,工程建设可能对环境造成的影响或破坏逐渐引起更多人的关注。明挖工程会对城市范围内的交通、建筑物
期刊
摘 要:市政道路是城市交通体系的重要组成部分,市政道路路线规划的合理性,体现了城市的发展水平与现代化水平。本文首先分析了市政道路路线设计的不足之处,继而提出有效的设计方案。  关键词:市政道路;路线;线形设计;要点   市政道路在促进经济发展、方便市民出行、维持交通秩序等各方面均起到重要作用,同时也是一座城市重要的基础设施。科学的道路线形设计能够提高人们出行的便捷性,驾驶的舒适性及安全性,促进人
期刊
摘 要:随着我国社会经济的提高,使得我国高速公路的建设得到了不断发展,可是由于高速公路的修建越来越普遍,所以在高速公路的建设当中,使用高填方路基施工技术也越来越多,然而高速公路的路基,可以所是道路系统当中最为重要的结构之一,相应的施工质量与高速高公路是使用寿命有着关键性的作用,所以在使用填筑高度大并且沉降速率快的高填方路基技术时,更需要对施工质量进行提高,并且还需要对实际情况进行结合,对高填方路技
期刊