论文部分内容阅读
摘 要:在公安交通管理领域,卡口车牌识别数据包含信息量齐全、准确,受到广泛地采用,但是该数据在使用过程中也容易造成个人隐私信息泄露。为研究研究卡口车牌识别数据中的隐私披露风险,减少卡口车牌数据在使用过车中造成的信息泄露,本文基于K匿名隐私保护模型,对卡口车牌识别数据中的隐私泄露风险进行分析和研究,提出常用脱敏手段和方法。并以广州市卡口车牌识别数据作为实例进行分析计算,提出具体的数据脱敏措施,在分析计算中发现:时间分辨率与的隐私保护程度成正比,而与信息保存率成反比。在本文的结尾提出了该算法存在的不足,并指明未来进一步深入研究的方向。本文对相关领域人员进行数据脱敏研究具有一定的借鉴意义。
关键词:交通管理数据;卡口车牌;数据脱敏;匿名隐私保护;时间分辨率
0 引言
随着政府信息化的不断深入,公众的个人信息被信息化系统(如视频卡口监测系统)广泛采集。在公安交通管理领域,卡口车牌识别数据作为位置数据的典型组成,记录了车辆车牌号、车牌颜色、行驶方向等信息,并标记了图像采集的卡口位置,车辆的历史轨迹通过一系列由卡口和经过时间的时间-空间二元元组重构。近年来,车牌识别数据因其数据采集率高、覆盖范围广和数据准确率高等优势而受到研究者们的广泛关注。例如,GY Jiang和AD Chang等结合车牌识别数据监测交通拥挤[1],H Chen和C Yang等学者利用车牌识別数据研究个体时空交通行为等[2]。随着第三方研究机构对卡口车牌识别数据研究需求的不断增长,随之而来的隐私问题则成为了人们关注的焦点。因此,研究卡口车牌识别数据中的隐私披露风险,探究车牌识别数据的脱敏技术和隐私保护方法具有重要意义。本文基于K匿名隐私保护模型,来探讨卡口车牌识别数据中的隐私泄露风险和相关脱敏手段和方法。
1 K匿名隐私保护模型
经过匿名化处理发布的数据集,一般为数据表形式:表中的每一条记录对应一个个体,包含多个属性值,属性值包含个体多方面的信息。这些属性可以分为三类:
(1)标识符(Identifier):能唯一标识单一个体的属性,如姓名、身份证号码和车牌号等。在数据表中删除标识符或匿名化处理在一定程度上可以达到隐私保护的目的。
(2)准标识符(Quasi-Identifier, QI):数据表中若干属性的组合,这些组合能够同外部信息结合链接,对个体重新标识,识别出主体身份。
(3)敏感属性(Sensitive Attribute):包含隐私信息的属性,如疾病、薪资,家庭住址等。
例如,在匿名化隐私数据表1中,通过删除姓名属性和社会保险代码两种标识符属性,数据被初步匿名化。但表中还包含种族、生日、性别和邮政编码等一般属性和婚姻状况、患病情况等敏感属性,这些属性能够被链接到非匿名化的公开候选人情况(含姓名、地址、所在城市、婚姻状况、性别、出生日期、邮政编码等属性),从而泄露个体的婚姻状况、患病情况等敏感信息。如在候选人列表中,在San Francisco的一位离婚女性,出生日期为64/09/27,该记录在匿名化医疗信息表中是唯一的,通过表1的链接,尽管在医疗信息表中并未包含标识符属性,仍然容易推算该女性为Susan,同时也获取到了她的敏感信息——患艾滋病。
针对此问题,2002年Sweeney L提出了K-anonymity隐私保护模型[3]。在K匿名性的约束下,数据集中的任意个体应该至少与其他K-1个个体是不可区分的。具体的,K-anonymity的定义如下:
K-anonymity:给定数据表,是与相关联的准标识符,当且仅当在中出现的每个值序列至少要在中出现K次,则满足K-匿名。表示表的元祖在准标识符上的投影。
在匿名化医疗信息表1中,准标识符为{种族,出生日期,性别,邮政编码,婚姻状况},该表满足K匿名当且仅当K=1。通过对表1的出生日期、邮政编码属性进行匿名化处理,即将出生日期后3位匿名化(如64/09/27处理为64/0*/**)、将邮政编码后两位进行匿名化(如94139处理为941**)得到匿名化处理后发布的数据表,准标识符依然为{种族,出生日期,性别,邮政编码,婚姻状况},K=2。在这种情况下,Susan的隐私信息就不能通过与外部信息的链接而被唯一的标识,也就达到了隐私保护的效果。
相应的在车牌识别数据集中,对某辆车的出行轨迹,从中选取若干记录组成其准标识符,根据准标识符在其他车辆轨迹集合中的出现次数确定该车的个体匿名性界定其个体隐私披露的风险。
2 测试数据集介绍
本案例基于广州市卡口车牌识别数据集。数据集记录了广州市主要视频监测卡口和各个时间段的车辆车牌识别数据。本案例从完整数据集中随机选取10万辆车约700万条数据记录。视频卡口主要集中分布在广州内环路附近及中心城区。卡口过车记录包含了有关车辆行驶信息和位置信息的若干属性,其中车牌信息已经经过MD5匿名化处理。表2列出了某原始记录的各个字段。
从表中可以看出,原始的车牌识别数据记录中的时间信息精确到秒,这样的时间分辨率足以让数据集中的每一辆车都被唯一的标识,而且对于大多数交通领域的研究比如交通流量的统计等,如此精确的时间分辨率也带来冗余的信息。为此,本案例通过时间维度上的聚合将1天24小时转换为若干相同时间间隔t的时间段。例如设置时间聚合度t为2 h,则意味着通过聚合2017-03-01 00:00:00至2017-03-01 02:00:00的记录为一个统一的THROUGHTIMEID: 101,依次类推,THROUGHTIMEID: 1509就代表2017-03-15 16:00:00至2017-03-15 18:00:00时间段内数据记录的时间戳。本案例考虑了5个级别的时间聚合度t:0.5 h、1 h、3 h、6 h、12 h。 3 結果分析
具体的,对于某车辆,从该车的出行轨迹中随机采样的方式得到其相应的准标识符,遍历所有车辆的出行轨迹集合,统计轨迹中包含的个体车辆集合为该个体的匿名性集合,个体匿名性集合中所包含的车辆数则为的匿名性,遍历发布车辆集合中的所有个体得到所有个体的匿名性列表K。具体实现如下。
基于此算法,在时间聚合度t为0.5 h,1 h,3 h,6 h和12 h,5个级别的时间分辨率下,选取不同的记录数,组成准标识符,标识统计数据集中个体的匿名性。为了更好的体现不同时间分辨率及不同记录数标识下个体匿名性的差异,直观地分析时间分辨率对个体匿名性的影响,然而随着准标识符记录数的增加,个体匿名性呈现显著的下降趋势。为了更直观的揭示准标识符长度即标识记录数对个体匿名性的影响,本案例选定时间分辨率为12 h,选用不同数量记录来标识个体匿名性,绘制被唯一标识的个体的占比情况,误差线代表99%的置信区间。尽管时间分辨率已经被粗化到12 h,仍然有将近90%的车辆能够被5个时空轨迹点唯一的标识。这意味着,车牌号码经过脱敏处理的卡口车牌识别数据仍然隐含着巨大的隐私泄露风险,这也说明了对于卡口车牌识别数据集,通过简单的MD5等手段对车牌号码进行转换来实现数据脱敏是远远不够的。
4 总结
本研究针对公安交通管理领域的交通数据,研究数据脱敏方法与技术,从数据脱敏的技术现状和政策要求来看,尽管国内对数据安全和隐私保护做出了一些规定,但在交通数据方面,这样的规范和行业标准却相对缺乏。本文揭露了卡口过车记录数据集中的个体由于被重标识而导致隐私泄露的风险。探究不同时间分辨率下的个体隐私泄露风险的程度,这为个体隐私保护提供了思路。更大的时间分辨率意味着更高程度的隐私保护程度,同时也意味着更多的信息损失。为此,未来的方向将会在隐私保护算法的设计,其能够针对不同的数据脱敏程度要求,对数据进行脱敏,以求达到个体隐私保护和数据效用的均衡。
参考文献:
[1]Gui-Yan,Jiang,C.An-De,and N.Shi-Feng.“Traffic congestion identification method based on license plate recognition data.”Journal of Harbin Institute of Technology 43.4(2011):131-135.
[2]Chen,Huiyu,Chao Yang,and Xiangdong Xu.“ClusteringVehicle Temporal and Spatial Travel Behavior Using License Plate Recognition Data.” Journal of Advanced Transportation 2017(2017).
[3]Sweeney,Latanya.“k-ANONYMITY:.”International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems10.05(2008):557-570.
关键词:交通管理数据;卡口车牌;数据脱敏;匿名隐私保护;时间分辨率
0 引言
随着政府信息化的不断深入,公众的个人信息被信息化系统(如视频卡口监测系统)广泛采集。在公安交通管理领域,卡口车牌识别数据作为位置数据的典型组成,记录了车辆车牌号、车牌颜色、行驶方向等信息,并标记了图像采集的卡口位置,车辆的历史轨迹通过一系列由卡口和经过时间的时间-空间二元元组重构。近年来,车牌识别数据因其数据采集率高、覆盖范围广和数据准确率高等优势而受到研究者们的广泛关注。例如,GY Jiang和AD Chang等结合车牌识别数据监测交通拥挤[1],H Chen和C Yang等学者利用车牌识別数据研究个体时空交通行为等[2]。随着第三方研究机构对卡口车牌识别数据研究需求的不断增长,随之而来的隐私问题则成为了人们关注的焦点。因此,研究卡口车牌识别数据中的隐私披露风险,探究车牌识别数据的脱敏技术和隐私保护方法具有重要意义。本文基于K匿名隐私保护模型,来探讨卡口车牌识别数据中的隐私泄露风险和相关脱敏手段和方法。
1 K匿名隐私保护模型
经过匿名化处理发布的数据集,一般为数据表形式:表中的每一条记录对应一个个体,包含多个属性值,属性值包含个体多方面的信息。这些属性可以分为三类:
(1)标识符(Identifier):能唯一标识单一个体的属性,如姓名、身份证号码和车牌号等。在数据表中删除标识符或匿名化处理在一定程度上可以达到隐私保护的目的。
(2)准标识符(Quasi-Identifier, QI):数据表中若干属性的组合,这些组合能够同外部信息结合链接,对个体重新标识,识别出主体身份。
(3)敏感属性(Sensitive Attribute):包含隐私信息的属性,如疾病、薪资,家庭住址等。
例如,在匿名化隐私数据表1中,通过删除姓名属性和社会保险代码两种标识符属性,数据被初步匿名化。但表中还包含种族、生日、性别和邮政编码等一般属性和婚姻状况、患病情况等敏感属性,这些属性能够被链接到非匿名化的公开候选人情况(含姓名、地址、所在城市、婚姻状况、性别、出生日期、邮政编码等属性),从而泄露个体的婚姻状况、患病情况等敏感信息。如在候选人列表中,在San Francisco的一位离婚女性,出生日期为64/09/27,该记录在匿名化医疗信息表中是唯一的,通过表1的链接,尽管在医疗信息表中并未包含标识符属性,仍然容易推算该女性为Susan,同时也获取到了她的敏感信息——患艾滋病。
针对此问题,2002年Sweeney L提出了K-anonymity隐私保护模型[3]。在K匿名性的约束下,数据集中的任意个体应该至少与其他K-1个个体是不可区分的。具体的,K-anonymity的定义如下:
K-anonymity:给定数据表,是与相关联的准标识符,当且仅当在中出现的每个值序列至少要在中出现K次,则满足K-匿名。表示表的元祖在准标识符上的投影。
在匿名化医疗信息表1中,准标识符为{种族,出生日期,性别,邮政编码,婚姻状况},该表满足K匿名当且仅当K=1。通过对表1的出生日期、邮政编码属性进行匿名化处理,即将出生日期后3位匿名化(如64/09/27处理为64/0*/**)、将邮政编码后两位进行匿名化(如94139处理为941**)得到匿名化处理后发布的数据表,准标识符依然为{种族,出生日期,性别,邮政编码,婚姻状况},K=2。在这种情况下,Susan的隐私信息就不能通过与外部信息的链接而被唯一的标识,也就达到了隐私保护的效果。
相应的在车牌识别数据集中,对某辆车的出行轨迹,从中选取若干记录组成其准标识符,根据准标识符在其他车辆轨迹集合中的出现次数确定该车的个体匿名性界定其个体隐私披露的风险。
2 测试数据集介绍
本案例基于广州市卡口车牌识别数据集。数据集记录了广州市主要视频监测卡口和各个时间段的车辆车牌识别数据。本案例从完整数据集中随机选取10万辆车约700万条数据记录。视频卡口主要集中分布在广州内环路附近及中心城区。卡口过车记录包含了有关车辆行驶信息和位置信息的若干属性,其中车牌信息已经经过MD5匿名化处理。表2列出了某原始记录的各个字段。
从表中可以看出,原始的车牌识别数据记录中的时间信息精确到秒,这样的时间分辨率足以让数据集中的每一辆车都被唯一的标识,而且对于大多数交通领域的研究比如交通流量的统计等,如此精确的时间分辨率也带来冗余的信息。为此,本案例通过时间维度上的聚合将1天24小时转换为若干相同时间间隔t的时间段。例如设置时间聚合度t为2 h,则意味着通过聚合2017-03-01 00:00:00至2017-03-01 02:00:00的记录为一个统一的THROUGHTIMEID: 101,依次类推,THROUGHTIMEID: 1509就代表2017-03-15 16:00:00至2017-03-15 18:00:00时间段内数据记录的时间戳。本案例考虑了5个级别的时间聚合度t:0.5 h、1 h、3 h、6 h、12 h。 3 結果分析
具体的,对于某车辆,从该车的出行轨迹中随机采样的方式得到其相应的准标识符,遍历所有车辆的出行轨迹集合,统计轨迹中包含的个体车辆集合为该个体的匿名性集合,个体匿名性集合中所包含的车辆数则为的匿名性,遍历发布车辆集合中的所有个体得到所有个体的匿名性列表K。具体实现如下。
基于此算法,在时间聚合度t为0.5 h,1 h,3 h,6 h和12 h,5个级别的时间分辨率下,选取不同的记录数,组成准标识符,标识统计数据集中个体的匿名性。为了更好的体现不同时间分辨率及不同记录数标识下个体匿名性的差异,直观地分析时间分辨率对个体匿名性的影响,然而随着准标识符记录数的增加,个体匿名性呈现显著的下降趋势。为了更直观的揭示准标识符长度即标识记录数对个体匿名性的影响,本案例选定时间分辨率为12 h,选用不同数量记录来标识个体匿名性,绘制被唯一标识的个体的占比情况,误差线代表99%的置信区间。尽管时间分辨率已经被粗化到12 h,仍然有将近90%的车辆能够被5个时空轨迹点唯一的标识。这意味着,车牌号码经过脱敏处理的卡口车牌识别数据仍然隐含着巨大的隐私泄露风险,这也说明了对于卡口车牌识别数据集,通过简单的MD5等手段对车牌号码进行转换来实现数据脱敏是远远不够的。
4 总结
本研究针对公安交通管理领域的交通数据,研究数据脱敏方法与技术,从数据脱敏的技术现状和政策要求来看,尽管国内对数据安全和隐私保护做出了一些规定,但在交通数据方面,这样的规范和行业标准却相对缺乏。本文揭露了卡口过车记录数据集中的个体由于被重标识而导致隐私泄露的风险。探究不同时间分辨率下的个体隐私泄露风险的程度,这为个体隐私保护提供了思路。更大的时间分辨率意味着更高程度的隐私保护程度,同时也意味着更多的信息损失。为此,未来的方向将会在隐私保护算法的设计,其能够针对不同的数据脱敏程度要求,对数据进行脱敏,以求达到个体隐私保护和数据效用的均衡。
参考文献:
[1]Gui-Yan,Jiang,C.An-De,and N.Shi-Feng.“Traffic congestion identification method based on license plate recognition data.”Journal of Harbin Institute of Technology 43.4(2011):131-135.
[2]Chen,Huiyu,Chao Yang,and Xiangdong Xu.“ClusteringVehicle Temporal and Spatial Travel Behavior Using License Plate Recognition Data.” Journal of Advanced Transportation 2017(2017).
[3]Sweeney,Latanya.“k-ANONYMITY:.”International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems10.05(2008):557-570.