论文部分内容阅读
摘要:公安警务数据治理是对公安警务数据的标准把控,元数据管理进行的一系列管理工作。而数据资产视角下的警务数据管理是对上述概念的延拓,它还包括了警务数据的质量管控,生命周期管控,安全管控,警务数据的体检及资产视图展示等。数据资产视角下的管控不仅仅是把数据管理起来,更多的是对数据资源到资产的价值体现。这标志着以往关系复杂的数据资源正在走向更高效,更易用,更具价值的数据资产。数据资产管理运用全新的理念、先进的技术手段、成熟的产品工具将警务数据管理得井井有条,为智慧公安大数据平台建设铺好路搭好桥,也为目前使用和开发警务数据工作奠定良好的基础。
关键词:数据资产管理;警务数据;公安云平台
1.引言
当今世界已经进入了大数据时代,大数据为塑造经济与社会形态、创新国家与社会治理理念和改变国家之间竞争格局带来了深刻变革。大数据日益成为创新驱动发展的先导力量,深刻改变着人们的生产生活,有力推动着社会发展。2015年,中国政府发布了《促进大数据发展行动纲要》。提出了大数据的发展形势和重要意义、指导思想和总体目标、主要任务,政策机制等。在国务院发布的《促进大数据发展行动纲要》政策基础上,党的第十八届五次全会通过了《关于制定国民经济和社会发展第十三个五年规划的建议》中明确提出,实施国家大数据战略。把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。“大数据”之所以如此倍受关注,取决于它的巨大价值。2012年,美国政府就已将数据的定义为“未来的新石油”。并表示,国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力。收集分析海量的各种类型的数据,并快速获取影响未来的信息的能力,则是大数据技术的核心所在。在2013年4月美国波士顿发生的爆炸案中,美国警察不仅调取了案发地周边所有的监控视频,还面向周边12个街区的居民搜集各种来自私人摄像机或手机的录像和照片,并大量搜集社交网站上的相片和视频,由此获得了破案线索,由此体现了大数据技术在侦破案件时发挥的重要作用。
在大数据和云计算以及新一轮信息技术快速发展及广泛应用的背景下,我国公安系统也正在进行云计算、大数据战略布局。2015年6月1日,公安部党委会议暨部全面深化改革领导小组第九次(扩大)会议指出,基础信息化是提升公安基础工作水平的基本途径,是全面深化公安改革、实现警务转型升级的重要载体。要更新理念、创新机制,大力推进大数据、云计算等前沿技术应用,进一步提升公安工作信息化水平。由此可见,通过大数据驱动新一轮警务改革与发展的客观要求,也是未来警务形态演进的必然趋势。
1.1大数据是公安信息化建设的发展方向
大数据让警务信息化建设又来一次革命,大数据的应用与发展是信息化引领警务预测的必由之路。社会治安防控点多面广,社会管理任务任重道远,服务社会群众事务繁多,要破解公安工作中存在的被动应付、粗放运作等难题,必须以信息化推动警务智能决策的科学发展。公安工作实践中,由于社会管理的职责特点,造就了公安机关掌握的数据存储海量化和类型多样化。针对互联网信息、生物特征信息、行为轨迹、图片影像等大数据进行处理分析,是公安机关应用大数据的优势,也是当前公安信息化建设的重点。不断加大包括公安内部的信息数据、社会资源和互联网资源信息的整合和处理,以及对数据的深度挖掘,是公安信息化发展的方向。
1.2大数据是社会管理科学化的有效方法
随着我国社会进一步开放,对境外驻华组织机构、社会各类非正式组织、民族宗教势力等监管难度不断加大;单位内部安全、国家秘密安全、道路交通安全、消防安全、校园安全、医患纠纷等高发难治;人流、物流、车流、信息流、资金流等复杂多变。公安机关对社会管理涉及“人、屋、车、场、网、会”等多种复杂因素,在警力有限、内力不足等情况下,只有通过大数据建设应用,抢占制高点,在更多领域以更高效、更大规模方式进行预测,为我所用,才能进一步优化公安管理流程,改变粗放型、经验式的管理模式。
1.3大数据是应对智能型犯罪的迫切需要
在世界多极化、经济全球化、治安复杂化的国内外环境下,电信诈骗、二维码犯罪、网络犯罪等违法犯罪活动不断显现出智能化、技术型、跨区域等趋势,手段不断出新多变;犯罪分子的有关违法轨迹闪得快、藏得深,利用科技犯罪容易造成大范围的影响和危害。为此,公安机关必须占据警务信息“制高点”,推动大数据在警务系统的应用,利用对大数据的分析、挖掘提升工作的预见力,并实现对数据、人像模型、指纹、文本、图片、音频、视频等数据的融合处理、比对、辨析,提升整个公安系统的战斗力,有效应对高科技犯罪行为。
1.4大数据是增强工作洞察力的重要手段
大数据的价值在于预测未知领域,在于预测非特定因素的未来趋势,在于破解长期的、普遍的社会难题。大数据带领我们进入了用数据进行预测的时代,“预测警务”已在美国等越来越多的国家、地区采用。我们应顺应形势发展,借助大数据,把数学算法运用到海量的警务信息上预测事情发生的可能性,掌握工作的主动权,制定相应的应对策略,改变缺乏系统、科学、前瞻的理论体系和分析思考;改变凭经验、靠直觉、拍脑袋的决策模式;改变靠人海战术、全警行动的社会管理工作方法;改变头痛医头脚痛医脚的专项行动、专项工作。大数据时代,依靠信息技术的深度挖掘与全警运用,推动警务决策机制从“业务驅动”向“数据预测”转变,决定着未来警务改革的发展方向。
2.武汉市公安大数据治理实践与现状
根据公安部的整体部署,武汉市公安局进行了金盾一期、金盾二期、平安城市的推广,公安信息化水平明显提高,各个业务警种结合自身的业务需求建设了一批专业化的信息系统,武汉市已建设面向各个警种的业务系统百余个。随着警务机制的改革,公安的业务需求已经发生重大改变,各警种已经从传统的单打独斗逐步向业务协同、联合作战的方向发展。为了适应未来的警务机制改革,需要融合各警种的业务系统和应用信息,实现多种业务交叉、多种信息关联、多种数据综合。 但由于武汉市公安系统里组织规模巨大,结构层次繁多,业务活动复杂。随着武汉市公安局的迅猛发展,公安内部数据资产规模急剧膨胀。构成日趋复杂,管理难度越来越大。在对公安系统电子政务信息资源整合的过程中,公安系统各部门间数据标准不完善,数据库规范不统一,造成各部门电子政务平台之间难以实现数据资源的整合与共享。其固有的部门之间的缝隙和管理的碎片化必定造成信息的孤岛和数据割裂的问题。主要表现在:一是顶层设计不够。由于受信息化技术阶段性发展因素的影响,公安信息化过去大多是以部门、条线为主进行建设,存在规划统筹不够的问题,表现在硬件资源利用率不高,应用系统功能融合不够,存在“零敲牛皮糖”、“黑熊掰玉米”等现象,符合基层实战的“小平台”、“小软件”开发不够。信息孤岛现象依然存在,更多的公安业务信息如笔录、物证照片、现场照片等证据类信息分散存储,制约了应用系统功能的发挥。二是基础工作还不够扎实。源头数据不全、不准、不新鲜等问题仍存在,基础工作考核和责任落实还没完全到位。民警从事信息采集的积极性、主动性发挥不够,方法还比较单一。三是资源整合不足。由于各部门之间的信息共享较难,尚未建立全市统一的数据共享常态机制,难以实现资源共享。四是深度应用不够。应用成效不够明显,基层信息研判力量不够、研判成果不深等情况仍然存在。应用需求提炼不精,通过数据研判指导公安实战的预警性、指令性、行动性一体化的应用模型较少,多数民警还停留在简单的搜索、查询应用阶段。五是专业人才不足。缺乏专业技术团队推动可持续信息化研发创新。
2.1公安大数据资产数量
公安大数据资产获取方式总体可分为:人工系统采集和现代化设备获取方式。人工系统采集的主要是针对设备无法完成的收集的数据。例如:常住人口、暂住人口、寄住人口、境外人口;区划、街道、门楼牌信息等;出租房屋信息、行业信息、单位组织;重点人口、监管对象及信息员等信息,这些信息通过基层民警实地走访采集并录入系统。现代化设备获取是通过物联网、传感器、网络数据等进行获取其中。如,物联网和传感器采集是通过各个街道、十字路口摄像机设备实时采集、上传的监控的视频和图像数据;网络数据获取是通过信息化刑侦手段对互联网上的违法行为的数据进行下载和爬取。
武汉市公安局信息化建设开始于1984年,在全国属起步较早的城市之一。经过30多年的发展,构建起基础设施完备、信息系统先进、信息资源丰富,具有武汉特色的信息化框架体系。在数据资源方面,随着公安信息化进程的不断的发展,武汉市公安已经积累的了海量的数据,大部分数据对公安以及相关领域的数据应用方面有着重要的意义,而这些数据则属于公安大数据资产。公安大数据资产涉及到人民群众信息多个方面,其时间跨度长,获取方式多样,涉及地域广,且数据体量巨大。公安大数据资产主要分布在公安系统内部的各个部门的政务和应用平台中。其中,刑侦、治安、技侦、禁毒、网安、国保、交警等各警种均建有自己的各类数据库和应用系统。目前,武汉市已建设面向各个警种的数据存储量达到57PB级。
2.2公安大数据资产质量
近年来,平安城市建设飞速发展,随着各种设备数量的增加,视频分辨率的提高,公安搜集到的视频和图片的数据量呈几何倍增长。但由于各个应用系统形成的数据没有统一的标准和规范,导致同一类数据统计时由于各个部门口径不同,最终的结果形成差异,难以保证各类数据的质量。
目前公安信息系统建设标准管理体系的滞后,各类应用系统的建设未能完全按照相关建设标准规范执行,数据标准化出现各种问题。一是数据规划与管理缺失,标准化工作是伴随着条线的信息化建设而产生的,这些标准在各自的应用系统建设和应用中具有相对完各『生和独立性,在跨部门、跨警种应用时,出现了数据的交叉与不一致。二是数据代码不统一,代码标准的不一致会直接造成系统间信息无法直接关联和共享,导致数据比对困难、统计信息不准,还会增加系统开发成本和开发难度。三是数据格式不一致,数据在数据库中是按照一定的格式进行存储的,存储的格式不一致导致在交换过程中需要对格式进行转换,而格式转换工作只能是一对一的转换,需要做大量的接口来进行解决。四是数据标识无规则,数据标识是在系统设计中,对每个数据项名称和表示的规范,由于之前没有制定统一的标识规则,系统开发公司按照自己的喜好与习惯对数据项进行标识,导致系统开发完成后,存在讀不懂和无法识别系统代码的现象,一旦公司不再为系统服务,系统将无法进行维护升级。这些问题都直接影响了公安信息化建设及相关信息资源的整合共享以及深度应用。
2.3公安大数据资产价值
一般来说,通常会把数据资产当作一种无形资产,这是因为里面会潜藏得很多价值。从经济效益来看,公安数据目前还不具备应用于商业的条件,从而导致其资产共享和开放水平不足,进而缺乏针对数据资产的应用场景,难以对公安大数据的价值做出商业评估。
从社会效益来看,武汉公安通过对现有数据进行资产治理,能最大限度的利用各级部门和单位的建设成果,解决现阶段警令不统一及协调性差、警务内容不规范,非警务活动仍占用警力等问题,从而实现进一步提高全市公安快速反应、现场处置和规范化执法能力。同时通过与现有的公安条线业务系统、视频监控系统、无线通信系统等已经建成的电子政务等系统之间进行有效连通、整合和共享,实现各个系统数据间的有效联动,形成扁平化数据共享体系,从而逐步打破公安各个业务部门之间的系统壁垒,有效的消除信息孤岛。通过对武汉公安的数据资产治理提升警务工作而带来的社会效益主要体现在以下几个方面:
一是提高民警侦查破案能力。利用经过治理后的数据和大数据技术手段,推动公安运行由局域动态向全域动态方向转变,推动公安发展由经验引导向数据引导转变。由数据主导,以主动的指挥调度实现内部协同、多警联动,形成动态化的力量优势。通过构建“武汉公安数据治理”体系,转变公安战斗力生成模式,切实提升公安民警的工作效能和战斗力,提高基层民警侦查破案能力。 二是提高城市治安管理能力。武汉公安综合利用大数据分析和技术,通过对海量数据的分析、处理,实现对警情态势、突出警情、定向警情、极端事件、网络舆情等的智能分析,明确巡防重点、打击重点、维稳重点、查整重点、警力配置重点等;为城市治安管理决策提供科学准确的依据,提升公安主动打击、事前防范的能力。
三是提高综合为民服务能力。武汉公安的数据应用能拓展网络民生警务领域,实现网络环境下的管理安全流程、服务全实现、警务全覆盖。推动和谐警民关系构建,让群众深切感受到人民公安综合为民服务水平的提升,增强群众幸福感,提高群众满意度。
四是提升政府公共服务水平。公安数据含有大量的人口数据,这些数据可以预防热点区域流密集导致的人生安全问题以及群体性事件的发生。还能为公共安全,城市规划,旅游发展,人口统计等社会管理,经济发展等方面提供有力支撑。比如在城市规划中,可以依据人口密度数据合理的规划城区,交通,学校选址,医院选址等公共基础设施的建设。
2.4公安大数据资产安全
从技术层面上来看,大数据技术容易黑客的攻击手段。在政府部门用数据共享和数据挖掘、数据研判同时,黑客也在利用大数据技术手段向政府发起攻击。黑客会利用大数据的特性,全方位地收集更多信息,通过大数据技术手段对政府的攻击反而变得更加精准有效。此外,大数据的价值低密度性,使得安全分析工具很难迅速锁定,黑客可以将攻击隐藏在大数据中,给提供安全服务商的分析制造很大困难。与此同时,公安信息系统的用户和管理人员通常情况下大多都不是计算机专业人员,而网络和服务器以及操作系统漏洞时有发生,加上系统用户和管理人员不能及时发现问题对系统进行修复,病毒和黑客就有机可乘,对数据资产造成不良影响。
从制度层面上来看,由于武汉市公安局内部管理机制的不完善,内部数据库层面存在操作行为缺少管控和记录,防止随意下载、删改等安全管控机制。系统用户和管理人员安全意识不到位并未按照相关保密要求操作电脑,人为的造成了数据资产的不安全和隐患,在数据传输、储存过程中的加密机制则需要进一步完善。
从传统的基础信息采集方式来看,这种采集信息工作是公安工作的最重要的基础工作之一,具有长期性、连续性、重复性、变化性等规律特点,贯穿于公安工作的各个环节,对时间、质量、准确度要求都十分高。通过传统方式采集的信息往往会因为有的基层民警在录入信息时,不能严格按照信息采集录入规范进行操作,录入的信息项目不全,格式不一,各大系统中不完整信息、错误信息甚至垃圾信息大量存在,直接影响了后期串并案、情报导侦和实施精确打击等信息的深度应用。有的基层民警不注重信息采集的时效性,信息录入不及时、更新不及时,该录不录、该撤不撤,无法保证系统信息准确鲜活从而影响整体数据资产质量。
3.数据资产管理视角下的警务数据治理理念与实施途径
数据资产管理是公安机关如何去管理数据的一套完整机制。包括形成公安机关相关部门数据管理的政策、规章制度、流程、角色和责任。数据管控体系的建立可为公安机关数据资产的准确性、一致性、完整性、实时性和安全性提供管理机制上的保证。以下将针对武汉市公安警务数据所面临的问题,从数据资产管理的角度为解决这些问题提出几点解决途径。
3.1对现有警务数据做好治理、安全及体检工作
目前公安警务数据所涉及到的业务系统众多,相应的数据表也随之增多,各表间的关系复杂,数据量庞大。同时,由于业务需要,存在多厂商进行数据开发的现象,如何对这些数据进行标准化,提高数据开发和应用效率;如何保证数据在开发使用过程中的安全可控;如何直观的对数据现状进行清晰的呈现等都是有效利用数据的必要前提。
3.1.1数据治理
警务数据管理的总体框架如下,从人员、技术和管理三方面统筹规划数据管理体系。从管理流程制度看,规范与标准对数据进行标准化定义,包括数据格式标准、数据应用标准,数据质量标准,同时为这些标准定义了相应的检查规则。标准与检查规则作为数据管理的基础,这些标准和规则在整个数据的生命周期不同阶段被引用执行。开发、质量、数据清理三大类的数据管理流程制度可确保数据管理流程制度、规则与标准能够被执行。
(1)数据模型设计、模型开发为数据生命周期不同阶段建立专业的工具支撑,数据模型设计、开发的可视化工具,简化数据创建的流程,提高需求响应效率;
(2)元數据可以积累和沉淀数据设计和开发过程中的知识,确保数据定义能够被理解。同时建立数据的关系分析、影响分析,帮助管理人员理解数据的来龙去脉;
(3)数据处理过程的监控保障数据能够及时进行加工和处理;
(4)数据质量管理,以质量问题管理过程为核心,构建问题发现、分析、处理关键环节,推进问题的闭环管理;
(5)数据生命周期管理,对数据的时效性进行评估,及时清理或转存失效的数据,保证存储设备能够有效循环利用,降低成本和提高运行效率。
前文已经提到,武汉市公安局的警务数据已经过数据标准化和元数据管理。但是,整体的数据治理工作远非如此。还需要完成:数据质量管理、数据生命周期管理、数据资产目录等内容。只有做好了数据治理工作,相应的数据应用和数据安全等工作才能高效开展并在应用上才能得到保证。数据治理是一项完整而全面的系统工程,通过管理流程与技术相结合,构建标准可信,安全可靠,过程可控的数据运营体系,同时,要满足大数据平台对于元数据管理及数据质量管理的相关要求。
3.1.1.1数据标准化
数据是武汉市局信息化建设的核心资产。建立以数据为中心,围绕数据采集、加工、使用、评估、优化、下线为整体的数据标准体系,建立以数据资产为核心的数据全生命周期管理,为大数据应用提供质量可靠的数据基础。标准化的数据带来精准的数据结果,通过对数据的梳理和治理,逐步建立起管理和工具相结合的数据管控体系,真正实现据可信、可管、可用。标准化包括:命名规则标准化、数据扩展规则标准化以及标准化规范执行。 (1)命名规则标准化要满足数据的名称、编码、层级、层的属性名称等协调一致,统一管理,改变各源系统不规范的命名方式,避免同名不同意,同意不同名的现象。目前武汉公安已按照公安部标准对数据进行标准化工作,但由于市局警务数据量大和不规范数据多等因素,经半年左右,已标准化的数据仅占整体数据的1/6。
(2)数据扩展规则是对指标代码,元数据,子类等扩展要素的扩展规则进行统一限定,保证后续数据的持续规范管理。新业务系统还会不断的增多,业務指标和对应的元数据也会随之增长,不能只针对目前系统和数据做好标准,还应从长远和宏观的角度去考量,做到数据规则的长期扩展,必须建立体系化的规则和标准。
(3)标准化规范执行,是对数据资产的产生过程进行监控,包括命名规范,信息完整性,合理性,基础信息完整性等。对存储周期,数据安全敏感信息和加密信息,权限赋权进行检查是否满足规范要求。规则制定后,必须切实执行才能保证规范化工作的顺利完成。
3.1.1.2元数据管理
元数据是描述数据的数据。数据实体、数据属性、数据间关系、数据处理规则、业务术语等都属于元数据的范畴。
元数据管理是数据资产管理的基础,主要面向业务人员和管理人员使用,提供对数据标准的定义,实现基于元数据开发过程的管控和规范化。提供元数据的采集、维护、查询和分析功能,方便用户了解大数据平台的元数据全貌及具体元数据详细信息。
(1)数据元素字典管理实现对数据元素字典的定义和管理。数据元素字典应真实准确反应数据内容,对于数据定义不明确的数据元素,应以数据应用环境、场景加以区分,并以应用业务部门需求为准。数据元素字典中还包括常用模型的基本屙l生信息以及常用的量度信息。
(2)业务术语管理提供对业务术语进行定义和管理。主要用于统一定义和描述内部的业务语言。并可以在线管理业务术语的属性,实现可以定制、容易扩展的功能。在提供的界面中可进行管理和查询,界面展示至少包括属于编码、术语名称、术语英文名称、浏览次数、术语所属主体域等。
(3)元数据维护是对业务元数据和技术元数据的管理。业务元数据要求包含但不限于应用/专题/产品、指标、维度信息。其中,应用/专题/产品元数据要求包含但不限于名称、功能简要介绍、功能详细介绍、实现流程介绍、涉及结果表元数据链接、涉及汇总表元数据链接。技术元数据要求包含但不限于数据源接口元数据、ETL过程元数据、数据仓库元数据、大数据平台元数据。二是,要求提供元数据浏览能力,以树形方式展示元数据。选择某个元数据可以在详细页面中进一步浏览该元数据的详细信息。三是,要求提供元数据查询能力,提供通用查询和高级查询两种查询方式。四是,通用查询即通过进入查询Tab,通用查询中在输入框中输入查询关键字,模糊查询产品知识库中的元数据。为进一步精确定位查询范围,在输入查询关键字同时可选择查询范围。五是,高级查询支持按元模型、元数据ID、元数据名称、元数据属性特定值的精确查询。在查询结果页面中可通过元数据ID以及上下文路径信息可链接到相应的元数据详细页面。六是,要求提供元数据导出功能,可根据导入元数据时所用的Excel格式,导出元数据树上特定的元数据节点以及集合。最后,要求提供元数据维护功能,通过修改痕迹可追溯元数据变更的历史。对于元数据的所有变更,也可通过不同的角度进行元数据变更查询。
(4)元数据分析包括:一是提供血缘分析,以某个元数据为终止节点,以图形化方式展示前端与其有关系的所有元数据,反应数据的来源与加工过程。使用血统分析可判断数据来源和定位数据质量问题。二是提供影响分析,以某个元数据为起始节点,以图形化方式展示后端与其有关系的所有元数据,反应数据的流向与加工过程。使用影响分析可用于判断数据流向和定位数据转换中的错误。三是提供全链分析,展示跟元数据相关的节点,图形化方式展示前段和后端与其有关系的所有元数据,反应数据的来源、流向和加工过程。
3.1.1.3数据质量管理
要对数据资产进行长期稳定的利用,就必须对数据进行常态化、体系化、标准化、自动化的全面数据质量管理,要求数据质量控制必须具备全面性、可控性、可度量性、可迅速定位和有效解决的能力。并通过流程制度建设、质量评估体系建设、质量检测平台建设实现TDQM(TotalDataQualityManage),即全面数据质量管理。
数据质量管理是数据资产管理中的基础,其作用是对数据质量进行稽核、监控、评估。主要功能包含:数据质量规则配置、数据质量任务管理、数据质量问题告警、数据质量结果评估。
(1)数据质量规则配置。具备图形化的操作界面方便维护人员进行稽核规则的配置。支持包含但不限于以下类型检查规则:①针对源系统和目标系统之间的接口文件的检查规则:包含但不限于文件传送及时率指标;②针对源系统和目标系统之间的接口内数据记录检查规则:包含但不限于对存储的接口表字段数、字段属性、记录数与实际接口数据文件中字段数、字段属性、记录数的一致性检查等;③针对内部的数据表、文件的字段内容检查规则:包含但不限于数据合法性、编码规范性、数据完整性、数据精确性、主键唯一性、数据及时性等;④针对数据表、文件中的数据内容检查规则:包含但不限于关键字段数据波动性、关键指标一致性等。
(2)数据质量任务管理。实现数据质量稽核任务的新增、删除、修改并能够在单个任务里面设置并应用数据稽核规则,设置稽核周期,生成稽核任务。
(3)数据质量问题告警。提供数据质量稽核任务清单,可以显示任务的状态(如运行、完成、告警等),在数据质量稽核过程中发现数据质量问题,能够给出告警提示,并且可以查看告警详情。
(4)数据质量结果评估。数据质量稽核任务运行完成后,能够生成对数据质量结果的评估报告。按周期形成质量分析报告,包括由变更引起的质量问题和影响,以及问题处理的情况等内容。并且针对数据完整性、数据唯一性、数据合法性、编码检查、统计口径形成数据质量评估报告。 3.1.1.4数据资产目录
建立武汉市公安局统一的数据资产目录,面向业务人员和管理人员使用,方便用户维护和了解数据资产详情。
数据资产目录的管理功能有:(1)对数据资产的维护功能,管理人员可以从元数据清单选择生成数据资产,实现数据资产的增删改。(2)在生成数据资产的过程中可以创建资产类别,能够支持5级目录,资产目录需要能够区分汇总数据和应用资产。(3)能够给具备权限的管理人员呈现全集的数据资产目录。(4)用戶能够在默认的数据资产目录基础上新建个性化的分类,并且进行自定义的资产归类。(5)数据资产的模糊搜索功能,根据搜索结果,选择具体数据资产,可以呈现该数据资产的业务定义和技术定义信息。(6)点击数据资产目录下的单个数据资产,能够进行数据资产查询,可以呈现该数据资产的业务定义和技术定义信息。(7)可以针对数据资产定义的查询结果进行下载。
3.1.2数据安全
数据安全管理旨在提供体系化的数据安全策略,全方位进行数据安全管控,通过多种手段保障武汉市局警务数据安全。公安警务数据由于其特殊性,对于安全的要求,更为严苛。如前文中提到倘若数据没有经过有效的安全管控,一旦发生数据安全事故,公安警务数据安全问题引起的后果非同小可。
总的来说,警务数据安全主要涉及到:数据加密解密、数据备份删除、数据访问控制、数据模糊化、数据下载审批、数据安全审计、数据备份和恢复这七个方面。
3.1.2.1数据加密解密
根据警务数据的特性,对于敏感数据在关键字段时运用加密、解密功能,保证用户数据的隐私。
(1)数据加密:平台嵌入加密程序,数据进入平台时,对指定敏感字段进行加密。
(2)数据解密:数据在计算时,均使用密文字段计算。在应用系统中嵌入解密程序。当用户使用应用系统查询计算后的数据默认为密文数据。如果用户想查看明文,系统才会调用解密程序将数据解密为明文字段。
(3)加密算法是采用DES加密算法,对称密码算法,即算法需要一个密钥,加解密共用。
(4)密钥生成:密钥由密钥程序生成,为保证数据安全性,用户可以对密钥进行修改,同时对历史数据加密数据进行刷新,密钥程序可由用户手动生成密钥。
(5)密钥存放:加密密钥以文件方式存储,存放在指定主机的指定目录下;密钥文件命名格式为“帐期.key”,例如2016年5月帐期加密密钥文件201605.key,2016年5月10日帐期加密密钥文件20160510.key;加密程序需要读取这个指定主机指定目录下的加密密钥文件,解密密钥由指定人员保管。
3.1.2.2数据备份删除
系统管理纳入权限管理体系和安全体系架构之内,Hadoop平台提供相应的监控、运维、告警、用户权限管理等接口,可以方便的接入权限管理系统。满足公安机关相应的管理要求和接口要求。
数据平台支持对系统使用者的权限管理,并对其访问过程进行可视化监控。按照不同的组织架构、操作权限和数据权限等组合创建角色,实现灵活配置管理。用户在对作业进行各种操作之前,通过统一的认证鉴权服务判断是否具有该操作权限。对HDFS中存储的文件,支持类似于Linux的文件与目录安全控制模型。并支持对接入Hadoop系统的客户端进行接入认证和安全控制。对Hadoop系统安全访问控制,通过制定安全策略,可以对非法访问进行访问中断。
提供操作及系统自监控等记录,日志信息包括时间戳、级别、用户、模块信息及日志正文。支持记录和查看系统运行日志和审计日志。支持系统运行日志和用户访问操作日志的记录、查询和展示。支持HDFS、MapReduce、HBase、Hive和Zookeeper的运行日志的记录和查看。支持系统运行日志分级,至少包括IN-F0、WARN、ERROR、FATAL等。支持HDFS、MapReduce和Hive的系统审计日志的记录和查看。
3.1.2.3数据访问控制
数据纳入系统管理后,运维人员对数据库的访问均通过系统进行。运维人员需要访问数据库的数据时,需要首先登录系统,对用户进行身份鉴别和权限判别,确定用户的真实身份并判断是否有数据库的访问权限,如果没有权限则无法访问数据。身份鉴别和权限判别通过后,系统根据安全策略进行访问控制,限制用户对数据库具体文件、目录和数据库表的访问。如限制用户只能对指定的数据库表执行查询操作,不能进行增删改操作。
3.1.2.4数据模糊化
数据模糊化是为了防止非法人员获取数据而加设的数据防护手段,从而保证用户根据其业务所需和安全等级,恰如其分地访问敏感数据。功能由数据安全模块实现。当业务访问系统数据时,该模块对数据进行实时筛选,并依据访问者的用户角色其他IT定义规则对敏感数据进行模糊化。
上图展示了数据模糊化的运作方式,图中有三名用户对系统数据进行访问。左侧为授权用户,该用户获得授权,可查看全部详细信息。中间为非授权用户,该用户仅被授权查看以屏蔽形式显示的数据,以便执行管理任务。右侧也是非授权用户,如开发人员、DBA或生产支持人员,他们出于IT方面的用途而需要以相应格式显示的信息,因此将向他们提供加密过的数值。
数据安全模块以网关形式部署在系统数据库前端,数据模糊化需要系统做相应改造,将对数据库的所有访问请求发送给数据安全模块,由其代理进行相应的模糊化操作。
3.1.2.5数据下载审批
用户访问主机数据库数据时,如需要下载某些数据到本地计算机阅读或传播使用,需进行数据下载的电子审批,系统将下载信息发送给用户的直属主管。直属主管如同意该申请则,系统发送电子验证码到访问用户,访问用户输入该电子验证码通过审批,用户通过审批后在限定时间内获得数据下载权限;如直接上级不同意该数据下载操作不能进行。用户的全部操作流程系统进行日志记录,留待后续审计。 3.1.2.6数据安全审计
数据安全审计由数据安全模块实现,数据安全模块对系统产生的数据访问日志记录进行获取并整理。其中包括数据存储日志记录、数据获取日志记录以及元数据管理和数据权限及策略管理的日志记录。
日志记录获取功能得到的日志记录信息,存储到介质前,需要作日志记录格式化、日志记录信息校验、以及日志记录敏感级别管理,以保证存储的日志记录是准确、有效、可以参与安全控制的。
数据安全审计主要是在发生数据安全事故后,根据相关数据信息进行责任定位的手段。为有效追蹤,数据安全模块可以按照用户工号、登录IP、访问时间、访问模块和地域等提供日志的组合查询统计;管理人员根据授权可以查询、统计、浏览、导出用户的操作日志,及时发现和处理非法和违规的数据操作。
3.1.2.7数据备份和恢复
为避免数据由于设备故障、损坏,以及灾难性事件等不可抗力而丢失或损坏。则需提供完备的数据备份和恢复机制。数据备份基本策略的设定有以下几种方式:
(1)数据库全量备份:按照系统的要求,每周备份一次;
(2)数据库增量备份:由备份主机执行增量备份,每晚业务空闲时进行备份;
(3)文件全量备份:由备份主机执行文件数据全备份,每周自动备份一次;
(4)文件增量备份:由备份主机执行增量备份,每晚业务空闲时进行备份。
结合以上备份策略,从便于管理和恢复的角度去考虑,制订数据分组对应策略,将数据分门别类放在不同编号的磁带组上,并建立不同的存取权限。应同样需要建立:数据库介质,专门放置数据库信息。文件介质,除数据库以外的文件。
3.1.3数据体检
数据体检犹如人定期做的体检一样,及时了解数据的健康状况。对公安机关的数据系统来说,由于数据资产信息的隐蔽性、系统结构的复杂度、管理操作过程的高难度,一旦质量问题发生,就可能造成严重影响。因此,定期进行“健康体检”,及早发现问题隐患并予以解决,是防范数据质量问题引起不良后果的重要手段。
目前,武汉市公安局里业务系统众多,数据来源广,导致了数据库中的数据表多,表关系不明了,数据质量不高,库和表对系统的资源占用情况不清楚,数据流向未知等,对现有公安警务数据做一个全方位的数据体检还是非常有必要的。
数据体检即可以帮助管理者直观的了解数据的整体健康状况,又可以总体评价由系统资源状况评估、空间使用情况评估、标准化程度评估、数据状态评估四项的评价,进行权重分配后计算得出一个总结性的评价。一般而言,数据体检包括如下几个方向:
(1)标准化程度评估,由定义警务数据对象的管理标准(表命名、字段命名、注释、字段类型定义等),分析实际数据环境与公安警务数据标准的差异,符合标准定义的为已标准化,反之未标准化。计算已标准化数据对象在全部数据对象中的占比,从而得出“数据标准化程度”,并以此做为评价数据标准化程度的依据。最终通过堆积图反映现有数据平台标准化程度的变化。
(2)数据使用状态评估,重要表数据占比是数据使用状态评估的主要依据,通过重要表数据占比情况,判断数据的整体使用情况和数据利用情况。数据只用状态评估通过数据的直接访问、问接访问(直接访问数据所依赖的前端数据节点都视为间接访问)和程序引用次数,将数据使用的使用状况分为重要、冷清、孤立三种状态。
(3)数据冗余度评估,通过表的数据结构与处理路径规则的对比,计算对象间的数据相似性,从而判断数据是否存在冗余。冗余数据对象占总体数据对象的比例即为数据平台的冗余率,百分比分值为冗余度。冗余度评估是对平台总体数据冗余情况的评价。另外,可根据实际应用情况对冗余数据进行调整,设置为合理冗余或不合理冗余,合理冗余将不计入冗余度计算。
(4)系统资源状态评估,设置CPU、内存平均利用率指标,跟踪监测在一段时间内的CPU、内存平均利用率情况,并以此评价计算资源的健康状况。通过长时间的跟踪分析系统资源负载情况,帮助管理人员、维护人员快速了解系统负载的高峰时段,并合理的分配系统资源的使用时间,均衡负载,同时为系统扩容提供依据。
(5)空间使用情况评估,跟踪分析数据中心的空间使用情况,并预测空间的未来可使用时长,以便更好的规划数据中心的空间使用,并及时、科学的进行系统扩容。
(6)处理效能评估,设置任务的总体波动率,跟踪分析一段时间周期内总体任务处理的时间波动情况,并以此评价数据处理效能的健康状况。在具体处理效能评估中,将从任务流和任务两个角度,对数据平台上任务处理的效能进行跟踪分析,从而找到影响任务波动的关键环节。
3.2警务数据管控驱动创新实践
以上章节分析了目前公安警务数据所面临的问题以及针对现有警务数据应该做好的数据治理、数据安全以及数据体检的工作。综合而看,通过数据资产管理理念和技术的运用,将有力的解决公安警务工作实际问题,并实现大数据公安警务的创新实践。
3.2.1警务数据治理保障公安警务数据进入良性发展循环
目前,武汉市公安局警务数据的标准化工作正在开展,元数据也进行了有效管理。但是数据治理中另外一个很重要的环节——数据质量管理,公安警务数据目前尚未完成。
数据质量管理是要对数据进行常态化,自动化的管理,从而达到在数据质量方面的全面、可控,问题可迅速定位和解决。根据公安警务数据的现状,我们认为对公安警务数据的全方位质量管控十分有必要。首先,公安警务数据治理如果只经过现有的标准化和元数据管理,并不能实现数据质量的有效保证。例如,如果不进行数据质量管控就对数据进行上线,虽然制定了数据标准和元数据模型,但是没有执行检查的工作,此前所有的工作都只是流于形式,没有实际意义。只有经过数据标准化,并且对元数据进行了管控,落实执行以确保所有的标准和规范通过,整个数据治理工作才算完整,公安警务数据才会进入一个良性发展的循环。更进一步来说,只有经过质量检查的数据才能真正算作是公安警务数据资产。其次,在应用运行过程中如果没有同步的数据质量管理,则有可能出现我们难以掌控的问题。例如:由于没有经过数据质量管理和数据体检,导致数据异常,数据量暴增,最终导致数据库奔溃。工作人员如果不对数据库进行查询和使用,甚至都不能及时了解这类情况的出现。所以,制定适当的质量管理策略十分必要。如此一来,所有的数据都是经过标准化的数据;通过元数据分析,所有的表关系也会清晰明了;更重要的是,经过质量策略管理过的数据,其数据质量也得到了有效保证。在数据库中一般再出现大量不符合质量标准的数据,即使出现数据质量问题,也会因为设置了质量规则,而迅速找到问题根源所在,从而快速的解决问题,保证了整个系统的高效运行。最后,全方位的数据质量管理,在出现问题后可以对所遇到的问题进行分析总结,并留存到知识库中供后续运维、学习使用。 此外,针对目前的警务数据治理现状,我们还是有更多的其他工作可以考虑,如元数据图谱的建立,更为先进的前向元数据管理,智能阈值调整,基于分词的自动命名规则推荐以及自动生成标准化词库等。
3.2.2安全策略确保警务数据的可靠使用
数据安全问题就像双刃剑,管控得力可以助力公安警务大数据繁荣,成为公安行业的数据资产。否则将会成为制约公安警务大数据发展的难题。我们需要通过多种安全技术及策略,如权限控制、隐私数据配置与转化、数字水印服务、日志记录、访问轨迹跟踪、加篇密和安全审计、数据导出保护,保障数据中心的数据安全,实现安全风险的事前可管、事中可控、事后可查的“三全式”进行安全管控保障。(1)事前包括策略设定和风险评估。策略设定,包括账号体系的建立,数据保护策略的设置,流程制度的制定;风险评估,包括安全级别评估、安全漏洞发现、敏感数据发现。经过事先的策略设定和依照设定的策略进行风险预评估可对目前公安警务数据安全的空白构筑起坚实的安全基础。所有的流程进行都应按照设定的安全策略执行,防控风险于未然;安全级别评估和漏洞检测等都是主动发现安全问题,可以有效减少安全事故发生,其成本最小,能杜绝的风险也最大。(2)事中的安全策略执行和安全网关的守护可以有效保证应用的安全执行。根据设定的安全策略,将执行敏感数据检查,权限检查,若发现异常,进行异常告警和处理;同时,JDBC代理、Hive代理、HDFS的安全网关技术手段可以有力的保证应用的正常执行。事中的安全防护是应对数据安全问题的重要保障,目前公安警务数据的访问和使用安全措施匮乏,有比较严重的数据安全隐患。如果能设置适当的安全保护措施,对数据访问进行审核,对异常的数据流量立刻中断等等都可以有效保护警务数据资产不被窃取盗用。(3)事后的安全组件控制和安全审计,分别提供了数据水印、数据溯源、离线访问控制和日志审查、审计脚本执行等方式。事后的安全审计和分析是数据安全问题的必要手段,能及时发现在事前和事中没有被发掘的数据安全问题,从而对数据安全问题造成的损失进行补救和追责。
因此可以对长期或短期的风险进行防控,安全问题不再是一种阻力,而是良性发展的驱动力,即警务数据安全管控也是为了推动警务数据产业更好的发展。
3.2.3警务数据体检清晰呈现数据资产视图
由于公安警务数据这样来源口径众多,数据关系复杂的综合型数据库错综复杂。因此,在公安机关里全方位的数据体检势在必行。
数据体检的目标有两个:数据资产展现、数据流图展现。经过数据体检实现公安警务数据的资产现状进行分类展示,公安警务数据从各业务系统汇聚后的数据流向和表与表间的关系。數据资产展现,是通过数据体检,着重于帮助管理者通过模型、存储、记录等指标快速的了解企业数据资产的总体规模与分布情况。目前武汉市公安局里警务数据需要对每周、每月的数据增量进行环比和同比的增量分析,对具体每类数据的分布情况利用图标的方式进行展示,有助于帮助业务人员快速直观的了解数据规模、数据增量和数据分布情况。数据流图展现是经过数据体检和数据治理血缘分析后,将数据的流向关系进行清晰明了的展示。数据流图更关注数据实时流动的情况,方便管理者和技术人员快速了解当前数据流动、运行的状况,并快速定位具体运行滞留点。目前武汉市公安局里警务数据的数据流向关系展现有待实现。
3.2.4警务数据治理助力开展警务工作
警务数据作为资产进行管理和治理,建立数据治理、数据管控后让数据质量更好,增加有效工作时间用于分析数据,减少搜索数据的时间,提升警务工作的效力与效率,形成大数据创新警务模式和应用,为警务工作提档升级发挥着重要作用。
数据治理有助于实现预测警务。通过对重点人员、警情、网上舆论的数据治理、深度挖掘、进行研判,建立基于重点人员动态轨迹异常行为、动态警情、网络舆情等智能分析模型,实时分析研判重点人员、警情、网情、舆情等各类数据,帮助情报人员提高从大量的预警信息中发现情报线索的研判效率,实现警情态势提前预测、重点人员及物品动态管控、治安形势提前预测、违法犯罪提前预防、各类群体提前掌控、网络舆情提前应对和预防。
数据治理有助于提升主动警务。在警务方面,充分依托一体化侦查办案平台,加强治安、刑侦、经侦、网安、国保、视侦、技侦、禁毒等侦查办案系统的整合,全面共享集成与案件相关的各类资源数据,利用“大数据”智能排查、多轨联控、多库联侦、关联比对、数据碰撞的作用,有助于构建多警种快速合成、多手段同步上岸新格局,各类案件侦破的能力明显增强。在队伍管理方面,通过信息化手段全面及时收集执法办案、队伍管理、服务民生中存在的接处警、受立案、涉案财物管理、行政审批、涉法信访、举报投诉、复议复核、行政诉讼等各类问题,形成“问题数据库”开展综合分析研判,确定重点单位、重点警种、重点问题,对存在的问题早发现、早制止、早解决、早纠正,有针对性地指导开展执法肃纪活动,提升执法能力、执法质量和执法公信力。将大数据与公安队伍管理工作有机结合,及时掌握基层队伍管理、民警个人思想、身体健康、家庭生活等行为状况,建立民警个人电子档案,加强队伍动态管控,形成个性化、定制化的管理、培训、考核、咨询服务。创新队伍管理模式,形成“以数据评估能效,以数据实施考核”的动态绩效管理考核机制,不断激发队伍内在活力、增强队伍凝聚力、提升公安战斗力。
数据治理有助于打造动态警务。在日常工作过程中,会产生大量交通数据、人员信息、基层民警工作数据、视频图像数据等各类数据,将这些数据经过治理并用到公安管理智慧化、科学化的决策中,建立一套公安大数据可视化政府决策系统。可视化系统根据警务工作需要,对涉及警员车辆定位信息、视频监控信息、110报警警情、辖区社会信息、巡逻防控区和警务区划分等图层功能,在地图上进行叠加显示,实现对警情处置的动态指挥调度。等领域的重大工作在地图上进行可视化展现,建立重大问题的预警处置机制,确保决策层及时全面掌握信息,进行协同办公,为科学决策提供依据。 数据治理有助于打造民生警务。以群众需求为根本导向,全面整合治安、交管、消防、出入境等公安各项网上行政审批及便民服务功能,充分利用互联网载体开展“互联网+公安”应用,让群众足不出户就可了解办事流程,打开电脑就能办理业务。依托微信、微博、移动终端APP、网上在线互动等多种新媒体渠道,整合“平安武汉”微博、武汉交警微信服务平台等应用,延伸“网上警局”服务,拓展警务公开范围,开通立案公开查询功能;建设大数据公共服务系统,服务党委、政府各部门、各行业共享大数据资源,重点在经济发展、城市规划、财税征收、民生保障、公共服务等领域提供强有力的数据服务和支撑,推进经济产业融合和发展,服务经济发展、公共安全和惠及民生,提升城市功能和品质。
数据治理有助于打造合成警务。围绕地面、地下、空中、水上、网络“五位一体”要素,形成全时空、全方位、全区域的立体化治安防控格局。整合公安原有多个治安管理业务系统,建设智能大巡控系统,实施“科技导防、立体布防、群众自防”战略和“六张网”相结合的全市梯级智能化防控网,利用大数据碰撞、关联分析,将违法犯罪警情与犯罪行为特征以及活动空间位置一并进行关联分析;智能分析评估社会治安态势、违法犯罪趋势和城市安全风险;依托天网作战系统视频巡防和动态人像识别功能,实现对社会面、居民区、学校、商圈、医院、内保单位、治安场所等部位实时监控;利用历史及当前警情数据进行时间空间分析,预测辖区内未来指定时间段内犯罪案件发生的概率及分布,结合人口密度、治安状况、地理位置等因素,科学划分巡逻区域,优化巡防力量布局,实时将警力投放在警情高发时段和区域,增强防控的针对性和实效性,减少案件发生。建设微警务系统,发动市民通过APP应用,随时随地采集各类治安微信息,参与城市管理,排除治安隐患,增强城市安全。开展宣传防范、报警求助、提供线索、便民服务等微服务,实现各项警务活动更主动、更亲民、更实效。
3.3警务数据资产管理效果展望
在公安警务数据现状中发现,现有公安警务数据管控存在着巨大的提升空间,经过数据治理、数据安全管控和数据体检,让原来的一些并不标准以及不完全用到的数据资源使之上升为可用的数据资产。
從治理上看,警务数据经过治理,均是标准化的存在,辅助以元模型的表关系分析,很容易就知道两张表的关系,另外数据质量管控从各个阶段都保证了数据的合规性,所有流程都有迹可循,可追本溯源。数据治理是后续一切工作的基础,解决了治理的难题,后续应用实现等相对应的工作都更容易实现。
从数据安全上看,警务数据经过资产化管理后,不用再担心数据被未授权访问甚至是盗取。不同的人员角色有不同的权限,未经授权不能越权访问。对敏感数据进行加密处理或模糊化处理,有效保证敏感数据不泄露。数据经过加密后即使被非法拿到也可避免严重的损失。
从数据体检来看,把警务数据作为资产来管理,可以对所有警务数据资产做到心中有数,可提高数据资产的可靠性;可促进数据治理的良性运作;同时还可以提升资源的科学管理能力。数据体检和数据资产视图让管理者可以从全局上把控警务数据的管理。
从数据提升警务工作来看,基于经过治理后的数据挖掘、应用有助于,构建基于大数据的智能化实战应用体系,实现公安信息化由封闭、分散、孤立、简单的业务应用,向开放、集成、共享、智能的高端应用转型,实现警务模式由被动向主动转变、由传统向现代转变,打造“平安武汉”建设信息化升级版,努力实现“社会更稳定、城市更有序、群众更便捷、队伍更过硬”的平安武汉梦。
4.研究结论
研究结论表明解决既有问题、提升信息化应用效益为出发点,以云计算、大数据处理等新技术为关键支撑,以服务实战应用为根本目标,通过成熟的数据交换技术,汇集公安内部所有的信息资源,强化信息资源梳理整合建设便捷高效的应用功能,形成武汉公安信息资源应用服务新体系。
武汉市公安智慧大数据平台的建设工作可以从数据治理、数据安全和数据体检三个方面着手开始建设。数据治理是基础,所有工作都是在此前提下进行的;数据安全是保障,数据的合法访问都要依靠数据安全来展开;数据体检是手段,可以有效提高警务数据的综合管理和运营。从数据资产管理的角度来看,武汉市公安局已经开始着手初期的整顿工作,还需要辅助以后续的资产管理手段来实现资源到资产的升华。
目前武汉公安警务数据还在进行标准化工作,还有一段路要走。以下就目前的情况对武汉公安大数据平台建设还有以下几方面的做工需要进行。
标准化工作应该将数据质量管理、数据生命周期管理纳入进来,以达到全面的数据治理效果;
数据安全工作应完善,可从警务数据资产的高度对所拥有的警务数据资产进行策略设定,安全防控,漏洞检查等;
数据体检和资产视图十分必要,从全局的高度去考虑,将所有的数据资产情况进行整理分类,让数据资产一目了然。
关键词:数据资产管理;警务数据;公安云平台
1.引言
当今世界已经进入了大数据时代,大数据为塑造经济与社会形态、创新国家与社会治理理念和改变国家之间竞争格局带来了深刻变革。大数据日益成为创新驱动发展的先导力量,深刻改变着人们的生产生活,有力推动着社会发展。2015年,中国政府发布了《促进大数据发展行动纲要》。提出了大数据的发展形势和重要意义、指导思想和总体目标、主要任务,政策机制等。在国务院发布的《促进大数据发展行动纲要》政策基础上,党的第十八届五次全会通过了《关于制定国民经济和社会发展第十三个五年规划的建议》中明确提出,实施国家大数据战略。把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。“大数据”之所以如此倍受关注,取决于它的巨大价值。2012年,美国政府就已将数据的定义为“未来的新石油”。并表示,国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力。收集分析海量的各种类型的数据,并快速获取影响未来的信息的能力,则是大数据技术的核心所在。在2013年4月美国波士顿发生的爆炸案中,美国警察不仅调取了案发地周边所有的监控视频,还面向周边12个街区的居民搜集各种来自私人摄像机或手机的录像和照片,并大量搜集社交网站上的相片和视频,由此获得了破案线索,由此体现了大数据技术在侦破案件时发挥的重要作用。
在大数据和云计算以及新一轮信息技术快速发展及广泛应用的背景下,我国公安系统也正在进行云计算、大数据战略布局。2015年6月1日,公安部党委会议暨部全面深化改革领导小组第九次(扩大)会议指出,基础信息化是提升公安基础工作水平的基本途径,是全面深化公安改革、实现警务转型升级的重要载体。要更新理念、创新机制,大力推进大数据、云计算等前沿技术应用,进一步提升公安工作信息化水平。由此可见,通过大数据驱动新一轮警务改革与发展的客观要求,也是未来警务形态演进的必然趋势。
1.1大数据是公安信息化建设的发展方向
大数据让警务信息化建设又来一次革命,大数据的应用与发展是信息化引领警务预测的必由之路。社会治安防控点多面广,社会管理任务任重道远,服务社会群众事务繁多,要破解公安工作中存在的被动应付、粗放运作等难题,必须以信息化推动警务智能决策的科学发展。公安工作实践中,由于社会管理的职责特点,造就了公安机关掌握的数据存储海量化和类型多样化。针对互联网信息、生物特征信息、行为轨迹、图片影像等大数据进行处理分析,是公安机关应用大数据的优势,也是当前公安信息化建设的重点。不断加大包括公安内部的信息数据、社会资源和互联网资源信息的整合和处理,以及对数据的深度挖掘,是公安信息化发展的方向。
1.2大数据是社会管理科学化的有效方法
随着我国社会进一步开放,对境外驻华组织机构、社会各类非正式组织、民族宗教势力等监管难度不断加大;单位内部安全、国家秘密安全、道路交通安全、消防安全、校园安全、医患纠纷等高发难治;人流、物流、车流、信息流、资金流等复杂多变。公安机关对社会管理涉及“人、屋、车、场、网、会”等多种复杂因素,在警力有限、内力不足等情况下,只有通过大数据建设应用,抢占制高点,在更多领域以更高效、更大规模方式进行预测,为我所用,才能进一步优化公安管理流程,改变粗放型、经验式的管理模式。
1.3大数据是应对智能型犯罪的迫切需要
在世界多极化、经济全球化、治安复杂化的国内外环境下,电信诈骗、二维码犯罪、网络犯罪等违法犯罪活动不断显现出智能化、技术型、跨区域等趋势,手段不断出新多变;犯罪分子的有关违法轨迹闪得快、藏得深,利用科技犯罪容易造成大范围的影响和危害。为此,公安机关必须占据警务信息“制高点”,推动大数据在警务系统的应用,利用对大数据的分析、挖掘提升工作的预见力,并实现对数据、人像模型、指纹、文本、图片、音频、视频等数据的融合处理、比对、辨析,提升整个公安系统的战斗力,有效应对高科技犯罪行为。
1.4大数据是增强工作洞察力的重要手段
大数据的价值在于预测未知领域,在于预测非特定因素的未来趋势,在于破解长期的、普遍的社会难题。大数据带领我们进入了用数据进行预测的时代,“预测警务”已在美国等越来越多的国家、地区采用。我们应顺应形势发展,借助大数据,把数学算法运用到海量的警务信息上预测事情发生的可能性,掌握工作的主动权,制定相应的应对策略,改变缺乏系统、科学、前瞻的理论体系和分析思考;改变凭经验、靠直觉、拍脑袋的决策模式;改变靠人海战术、全警行动的社会管理工作方法;改变头痛医头脚痛医脚的专项行动、专项工作。大数据时代,依靠信息技术的深度挖掘与全警运用,推动警务决策机制从“业务驅动”向“数据预测”转变,决定着未来警务改革的发展方向。
2.武汉市公安大数据治理实践与现状
根据公安部的整体部署,武汉市公安局进行了金盾一期、金盾二期、平安城市的推广,公安信息化水平明显提高,各个业务警种结合自身的业务需求建设了一批专业化的信息系统,武汉市已建设面向各个警种的业务系统百余个。随着警务机制的改革,公安的业务需求已经发生重大改变,各警种已经从传统的单打独斗逐步向业务协同、联合作战的方向发展。为了适应未来的警务机制改革,需要融合各警种的业务系统和应用信息,实现多种业务交叉、多种信息关联、多种数据综合。 但由于武汉市公安系统里组织规模巨大,结构层次繁多,业务活动复杂。随着武汉市公安局的迅猛发展,公安内部数据资产规模急剧膨胀。构成日趋复杂,管理难度越来越大。在对公安系统电子政务信息资源整合的过程中,公安系统各部门间数据标准不完善,数据库规范不统一,造成各部门电子政务平台之间难以实现数据资源的整合与共享。其固有的部门之间的缝隙和管理的碎片化必定造成信息的孤岛和数据割裂的问题。主要表现在:一是顶层设计不够。由于受信息化技术阶段性发展因素的影响,公安信息化过去大多是以部门、条线为主进行建设,存在规划统筹不够的问题,表现在硬件资源利用率不高,应用系统功能融合不够,存在“零敲牛皮糖”、“黑熊掰玉米”等现象,符合基层实战的“小平台”、“小软件”开发不够。信息孤岛现象依然存在,更多的公安业务信息如笔录、物证照片、现场照片等证据类信息分散存储,制约了应用系统功能的发挥。二是基础工作还不够扎实。源头数据不全、不准、不新鲜等问题仍存在,基础工作考核和责任落实还没完全到位。民警从事信息采集的积极性、主动性发挥不够,方法还比较单一。三是资源整合不足。由于各部门之间的信息共享较难,尚未建立全市统一的数据共享常态机制,难以实现资源共享。四是深度应用不够。应用成效不够明显,基层信息研判力量不够、研判成果不深等情况仍然存在。应用需求提炼不精,通过数据研判指导公安实战的预警性、指令性、行动性一体化的应用模型较少,多数民警还停留在简单的搜索、查询应用阶段。五是专业人才不足。缺乏专业技术团队推动可持续信息化研发创新。
2.1公安大数据资产数量
公安大数据资产获取方式总体可分为:人工系统采集和现代化设备获取方式。人工系统采集的主要是针对设备无法完成的收集的数据。例如:常住人口、暂住人口、寄住人口、境外人口;区划、街道、门楼牌信息等;出租房屋信息、行业信息、单位组织;重点人口、监管对象及信息员等信息,这些信息通过基层民警实地走访采集并录入系统。现代化设备获取是通过物联网、传感器、网络数据等进行获取其中。如,物联网和传感器采集是通过各个街道、十字路口摄像机设备实时采集、上传的监控的视频和图像数据;网络数据获取是通过信息化刑侦手段对互联网上的违法行为的数据进行下载和爬取。
武汉市公安局信息化建设开始于1984年,在全国属起步较早的城市之一。经过30多年的发展,构建起基础设施完备、信息系统先进、信息资源丰富,具有武汉特色的信息化框架体系。在数据资源方面,随着公安信息化进程的不断的发展,武汉市公安已经积累的了海量的数据,大部分数据对公安以及相关领域的数据应用方面有着重要的意义,而这些数据则属于公安大数据资产。公安大数据资产涉及到人民群众信息多个方面,其时间跨度长,获取方式多样,涉及地域广,且数据体量巨大。公安大数据资产主要分布在公安系统内部的各个部门的政务和应用平台中。其中,刑侦、治安、技侦、禁毒、网安、国保、交警等各警种均建有自己的各类数据库和应用系统。目前,武汉市已建设面向各个警种的数据存储量达到57PB级。
2.2公安大数据资产质量
近年来,平安城市建设飞速发展,随着各种设备数量的增加,视频分辨率的提高,公安搜集到的视频和图片的数据量呈几何倍增长。但由于各个应用系统形成的数据没有统一的标准和规范,导致同一类数据统计时由于各个部门口径不同,最终的结果形成差异,难以保证各类数据的质量。
目前公安信息系统建设标准管理体系的滞后,各类应用系统的建设未能完全按照相关建设标准规范执行,数据标准化出现各种问题。一是数据规划与管理缺失,标准化工作是伴随着条线的信息化建设而产生的,这些标准在各自的应用系统建设和应用中具有相对完各『生和独立性,在跨部门、跨警种应用时,出现了数据的交叉与不一致。二是数据代码不统一,代码标准的不一致会直接造成系统间信息无法直接关联和共享,导致数据比对困难、统计信息不准,还会增加系统开发成本和开发难度。三是数据格式不一致,数据在数据库中是按照一定的格式进行存储的,存储的格式不一致导致在交换过程中需要对格式进行转换,而格式转换工作只能是一对一的转换,需要做大量的接口来进行解决。四是数据标识无规则,数据标识是在系统设计中,对每个数据项名称和表示的规范,由于之前没有制定统一的标识规则,系统开发公司按照自己的喜好与习惯对数据项进行标识,导致系统开发完成后,存在讀不懂和无法识别系统代码的现象,一旦公司不再为系统服务,系统将无法进行维护升级。这些问题都直接影响了公安信息化建设及相关信息资源的整合共享以及深度应用。
2.3公安大数据资产价值
一般来说,通常会把数据资产当作一种无形资产,这是因为里面会潜藏得很多价值。从经济效益来看,公安数据目前还不具备应用于商业的条件,从而导致其资产共享和开放水平不足,进而缺乏针对数据资产的应用场景,难以对公安大数据的价值做出商业评估。
从社会效益来看,武汉公安通过对现有数据进行资产治理,能最大限度的利用各级部门和单位的建设成果,解决现阶段警令不统一及协调性差、警务内容不规范,非警务活动仍占用警力等问题,从而实现进一步提高全市公安快速反应、现场处置和规范化执法能力。同时通过与现有的公安条线业务系统、视频监控系统、无线通信系统等已经建成的电子政务等系统之间进行有效连通、整合和共享,实现各个系统数据间的有效联动,形成扁平化数据共享体系,从而逐步打破公安各个业务部门之间的系统壁垒,有效的消除信息孤岛。通过对武汉公安的数据资产治理提升警务工作而带来的社会效益主要体现在以下几个方面:
一是提高民警侦查破案能力。利用经过治理后的数据和大数据技术手段,推动公安运行由局域动态向全域动态方向转变,推动公安发展由经验引导向数据引导转变。由数据主导,以主动的指挥调度实现内部协同、多警联动,形成动态化的力量优势。通过构建“武汉公安数据治理”体系,转变公安战斗力生成模式,切实提升公安民警的工作效能和战斗力,提高基层民警侦查破案能力。 二是提高城市治安管理能力。武汉公安综合利用大数据分析和技术,通过对海量数据的分析、处理,实现对警情态势、突出警情、定向警情、极端事件、网络舆情等的智能分析,明确巡防重点、打击重点、维稳重点、查整重点、警力配置重点等;为城市治安管理决策提供科学准确的依据,提升公安主动打击、事前防范的能力。
三是提高综合为民服务能力。武汉公安的数据应用能拓展网络民生警务领域,实现网络环境下的管理安全流程、服务全实现、警务全覆盖。推动和谐警民关系构建,让群众深切感受到人民公安综合为民服务水平的提升,增强群众幸福感,提高群众满意度。
四是提升政府公共服务水平。公安数据含有大量的人口数据,这些数据可以预防热点区域流密集导致的人生安全问题以及群体性事件的发生。还能为公共安全,城市规划,旅游发展,人口统计等社会管理,经济发展等方面提供有力支撑。比如在城市规划中,可以依据人口密度数据合理的规划城区,交通,学校选址,医院选址等公共基础设施的建设。
2.4公安大数据资产安全
从技术层面上来看,大数据技术容易黑客的攻击手段。在政府部门用数据共享和数据挖掘、数据研判同时,黑客也在利用大数据技术手段向政府发起攻击。黑客会利用大数据的特性,全方位地收集更多信息,通过大数据技术手段对政府的攻击反而变得更加精准有效。此外,大数据的价值低密度性,使得安全分析工具很难迅速锁定,黑客可以将攻击隐藏在大数据中,给提供安全服务商的分析制造很大困难。与此同时,公安信息系统的用户和管理人员通常情况下大多都不是计算机专业人员,而网络和服务器以及操作系统漏洞时有发生,加上系统用户和管理人员不能及时发现问题对系统进行修复,病毒和黑客就有机可乘,对数据资产造成不良影响。
从制度层面上来看,由于武汉市公安局内部管理机制的不完善,内部数据库层面存在操作行为缺少管控和记录,防止随意下载、删改等安全管控机制。系统用户和管理人员安全意识不到位并未按照相关保密要求操作电脑,人为的造成了数据资产的不安全和隐患,在数据传输、储存过程中的加密机制则需要进一步完善。
从传统的基础信息采集方式来看,这种采集信息工作是公安工作的最重要的基础工作之一,具有长期性、连续性、重复性、变化性等规律特点,贯穿于公安工作的各个环节,对时间、质量、准确度要求都十分高。通过传统方式采集的信息往往会因为有的基层民警在录入信息时,不能严格按照信息采集录入规范进行操作,录入的信息项目不全,格式不一,各大系统中不完整信息、错误信息甚至垃圾信息大量存在,直接影响了后期串并案、情报导侦和实施精确打击等信息的深度应用。有的基层民警不注重信息采集的时效性,信息录入不及时、更新不及时,该录不录、该撤不撤,无法保证系统信息准确鲜活从而影响整体数据资产质量。
3.数据资产管理视角下的警务数据治理理念与实施途径
数据资产管理是公安机关如何去管理数据的一套完整机制。包括形成公安机关相关部门数据管理的政策、规章制度、流程、角色和责任。数据管控体系的建立可为公安机关数据资产的准确性、一致性、完整性、实时性和安全性提供管理机制上的保证。以下将针对武汉市公安警务数据所面临的问题,从数据资产管理的角度为解决这些问题提出几点解决途径。
3.1对现有警务数据做好治理、安全及体检工作
目前公安警务数据所涉及到的业务系统众多,相应的数据表也随之增多,各表间的关系复杂,数据量庞大。同时,由于业务需要,存在多厂商进行数据开发的现象,如何对这些数据进行标准化,提高数据开发和应用效率;如何保证数据在开发使用过程中的安全可控;如何直观的对数据现状进行清晰的呈现等都是有效利用数据的必要前提。
3.1.1数据治理
警务数据管理的总体框架如下,从人员、技术和管理三方面统筹规划数据管理体系。从管理流程制度看,规范与标准对数据进行标准化定义,包括数据格式标准、数据应用标准,数据质量标准,同时为这些标准定义了相应的检查规则。标准与检查规则作为数据管理的基础,这些标准和规则在整个数据的生命周期不同阶段被引用执行。开发、质量、数据清理三大类的数据管理流程制度可确保数据管理流程制度、规则与标准能够被执行。
(1)数据模型设计、模型开发为数据生命周期不同阶段建立专业的工具支撑,数据模型设计、开发的可视化工具,简化数据创建的流程,提高需求响应效率;
(2)元數据可以积累和沉淀数据设计和开发过程中的知识,确保数据定义能够被理解。同时建立数据的关系分析、影响分析,帮助管理人员理解数据的来龙去脉;
(3)数据处理过程的监控保障数据能够及时进行加工和处理;
(4)数据质量管理,以质量问题管理过程为核心,构建问题发现、分析、处理关键环节,推进问题的闭环管理;
(5)数据生命周期管理,对数据的时效性进行评估,及时清理或转存失效的数据,保证存储设备能够有效循环利用,降低成本和提高运行效率。
前文已经提到,武汉市公安局的警务数据已经过数据标准化和元数据管理。但是,整体的数据治理工作远非如此。还需要完成:数据质量管理、数据生命周期管理、数据资产目录等内容。只有做好了数据治理工作,相应的数据应用和数据安全等工作才能高效开展并在应用上才能得到保证。数据治理是一项完整而全面的系统工程,通过管理流程与技术相结合,构建标准可信,安全可靠,过程可控的数据运营体系,同时,要满足大数据平台对于元数据管理及数据质量管理的相关要求。
3.1.1.1数据标准化
数据是武汉市局信息化建设的核心资产。建立以数据为中心,围绕数据采集、加工、使用、评估、优化、下线为整体的数据标准体系,建立以数据资产为核心的数据全生命周期管理,为大数据应用提供质量可靠的数据基础。标准化的数据带来精准的数据结果,通过对数据的梳理和治理,逐步建立起管理和工具相结合的数据管控体系,真正实现据可信、可管、可用。标准化包括:命名规则标准化、数据扩展规则标准化以及标准化规范执行。 (1)命名规则标准化要满足数据的名称、编码、层级、层的属性名称等协调一致,统一管理,改变各源系统不规范的命名方式,避免同名不同意,同意不同名的现象。目前武汉公安已按照公安部标准对数据进行标准化工作,但由于市局警务数据量大和不规范数据多等因素,经半年左右,已标准化的数据仅占整体数据的1/6。
(2)数据扩展规则是对指标代码,元数据,子类等扩展要素的扩展规则进行统一限定,保证后续数据的持续规范管理。新业务系统还会不断的增多,业務指标和对应的元数据也会随之增长,不能只针对目前系统和数据做好标准,还应从长远和宏观的角度去考量,做到数据规则的长期扩展,必须建立体系化的规则和标准。
(3)标准化规范执行,是对数据资产的产生过程进行监控,包括命名规范,信息完整性,合理性,基础信息完整性等。对存储周期,数据安全敏感信息和加密信息,权限赋权进行检查是否满足规范要求。规则制定后,必须切实执行才能保证规范化工作的顺利完成。
3.1.1.2元数据管理
元数据是描述数据的数据。数据实体、数据属性、数据间关系、数据处理规则、业务术语等都属于元数据的范畴。
元数据管理是数据资产管理的基础,主要面向业务人员和管理人员使用,提供对数据标准的定义,实现基于元数据开发过程的管控和规范化。提供元数据的采集、维护、查询和分析功能,方便用户了解大数据平台的元数据全貌及具体元数据详细信息。
(1)数据元素字典管理实现对数据元素字典的定义和管理。数据元素字典应真实准确反应数据内容,对于数据定义不明确的数据元素,应以数据应用环境、场景加以区分,并以应用业务部门需求为准。数据元素字典中还包括常用模型的基本屙l生信息以及常用的量度信息。
(2)业务术语管理提供对业务术语进行定义和管理。主要用于统一定义和描述内部的业务语言。并可以在线管理业务术语的属性,实现可以定制、容易扩展的功能。在提供的界面中可进行管理和查询,界面展示至少包括属于编码、术语名称、术语英文名称、浏览次数、术语所属主体域等。
(3)元数据维护是对业务元数据和技术元数据的管理。业务元数据要求包含但不限于应用/专题/产品、指标、维度信息。其中,应用/专题/产品元数据要求包含但不限于名称、功能简要介绍、功能详细介绍、实现流程介绍、涉及结果表元数据链接、涉及汇总表元数据链接。技术元数据要求包含但不限于数据源接口元数据、ETL过程元数据、数据仓库元数据、大数据平台元数据。二是,要求提供元数据浏览能力,以树形方式展示元数据。选择某个元数据可以在详细页面中进一步浏览该元数据的详细信息。三是,要求提供元数据查询能力,提供通用查询和高级查询两种查询方式。四是,通用查询即通过进入查询Tab,通用查询中在输入框中输入查询关键字,模糊查询产品知识库中的元数据。为进一步精确定位查询范围,在输入查询关键字同时可选择查询范围。五是,高级查询支持按元模型、元数据ID、元数据名称、元数据属性特定值的精确查询。在查询结果页面中可通过元数据ID以及上下文路径信息可链接到相应的元数据详细页面。六是,要求提供元数据导出功能,可根据导入元数据时所用的Excel格式,导出元数据树上特定的元数据节点以及集合。最后,要求提供元数据维护功能,通过修改痕迹可追溯元数据变更的历史。对于元数据的所有变更,也可通过不同的角度进行元数据变更查询。
(4)元数据分析包括:一是提供血缘分析,以某个元数据为终止节点,以图形化方式展示前端与其有关系的所有元数据,反应数据的来源与加工过程。使用血统分析可判断数据来源和定位数据质量问题。二是提供影响分析,以某个元数据为起始节点,以图形化方式展示后端与其有关系的所有元数据,反应数据的流向与加工过程。使用影响分析可用于判断数据流向和定位数据转换中的错误。三是提供全链分析,展示跟元数据相关的节点,图形化方式展示前段和后端与其有关系的所有元数据,反应数据的来源、流向和加工过程。
3.1.1.3数据质量管理
要对数据资产进行长期稳定的利用,就必须对数据进行常态化、体系化、标准化、自动化的全面数据质量管理,要求数据质量控制必须具备全面性、可控性、可度量性、可迅速定位和有效解决的能力。并通过流程制度建设、质量评估体系建设、质量检测平台建设实现TDQM(TotalDataQualityManage),即全面数据质量管理。
数据质量管理是数据资产管理中的基础,其作用是对数据质量进行稽核、监控、评估。主要功能包含:数据质量规则配置、数据质量任务管理、数据质量问题告警、数据质量结果评估。
(1)数据质量规则配置。具备图形化的操作界面方便维护人员进行稽核规则的配置。支持包含但不限于以下类型检查规则:①针对源系统和目标系统之间的接口文件的检查规则:包含但不限于文件传送及时率指标;②针对源系统和目标系统之间的接口内数据记录检查规则:包含但不限于对存储的接口表字段数、字段属性、记录数与实际接口数据文件中字段数、字段属性、记录数的一致性检查等;③针对内部的数据表、文件的字段内容检查规则:包含但不限于数据合法性、编码规范性、数据完整性、数据精确性、主键唯一性、数据及时性等;④针对数据表、文件中的数据内容检查规则:包含但不限于关键字段数据波动性、关键指标一致性等。
(2)数据质量任务管理。实现数据质量稽核任务的新增、删除、修改并能够在单个任务里面设置并应用数据稽核规则,设置稽核周期,生成稽核任务。
(3)数据质量问题告警。提供数据质量稽核任务清单,可以显示任务的状态(如运行、完成、告警等),在数据质量稽核过程中发现数据质量问题,能够给出告警提示,并且可以查看告警详情。
(4)数据质量结果评估。数据质量稽核任务运行完成后,能够生成对数据质量结果的评估报告。按周期形成质量分析报告,包括由变更引起的质量问题和影响,以及问题处理的情况等内容。并且针对数据完整性、数据唯一性、数据合法性、编码检查、统计口径形成数据质量评估报告。 3.1.1.4数据资产目录
建立武汉市公安局统一的数据资产目录,面向业务人员和管理人员使用,方便用户维护和了解数据资产详情。
数据资产目录的管理功能有:(1)对数据资产的维护功能,管理人员可以从元数据清单选择生成数据资产,实现数据资产的增删改。(2)在生成数据资产的过程中可以创建资产类别,能够支持5级目录,资产目录需要能够区分汇总数据和应用资产。(3)能够给具备权限的管理人员呈现全集的数据资产目录。(4)用戶能够在默认的数据资产目录基础上新建个性化的分类,并且进行自定义的资产归类。(5)数据资产的模糊搜索功能,根据搜索结果,选择具体数据资产,可以呈现该数据资产的业务定义和技术定义信息。(6)点击数据资产目录下的单个数据资产,能够进行数据资产查询,可以呈现该数据资产的业务定义和技术定义信息。(7)可以针对数据资产定义的查询结果进行下载。
3.1.2数据安全
数据安全管理旨在提供体系化的数据安全策略,全方位进行数据安全管控,通过多种手段保障武汉市局警务数据安全。公安警务数据由于其特殊性,对于安全的要求,更为严苛。如前文中提到倘若数据没有经过有效的安全管控,一旦发生数据安全事故,公安警务数据安全问题引起的后果非同小可。
总的来说,警务数据安全主要涉及到:数据加密解密、数据备份删除、数据访问控制、数据模糊化、数据下载审批、数据安全审计、数据备份和恢复这七个方面。
3.1.2.1数据加密解密
根据警务数据的特性,对于敏感数据在关键字段时运用加密、解密功能,保证用户数据的隐私。
(1)数据加密:平台嵌入加密程序,数据进入平台时,对指定敏感字段进行加密。
(2)数据解密:数据在计算时,均使用密文字段计算。在应用系统中嵌入解密程序。当用户使用应用系统查询计算后的数据默认为密文数据。如果用户想查看明文,系统才会调用解密程序将数据解密为明文字段。
(3)加密算法是采用DES加密算法,对称密码算法,即算法需要一个密钥,加解密共用。
(4)密钥生成:密钥由密钥程序生成,为保证数据安全性,用户可以对密钥进行修改,同时对历史数据加密数据进行刷新,密钥程序可由用户手动生成密钥。
(5)密钥存放:加密密钥以文件方式存储,存放在指定主机的指定目录下;密钥文件命名格式为“帐期.key”,例如2016年5月帐期加密密钥文件201605.key,2016年5月10日帐期加密密钥文件20160510.key;加密程序需要读取这个指定主机指定目录下的加密密钥文件,解密密钥由指定人员保管。
3.1.2.2数据备份删除
系统管理纳入权限管理体系和安全体系架构之内,Hadoop平台提供相应的监控、运维、告警、用户权限管理等接口,可以方便的接入权限管理系统。满足公安机关相应的管理要求和接口要求。
数据平台支持对系统使用者的权限管理,并对其访问过程进行可视化监控。按照不同的组织架构、操作权限和数据权限等组合创建角色,实现灵活配置管理。用户在对作业进行各种操作之前,通过统一的认证鉴权服务判断是否具有该操作权限。对HDFS中存储的文件,支持类似于Linux的文件与目录安全控制模型。并支持对接入Hadoop系统的客户端进行接入认证和安全控制。对Hadoop系统安全访问控制,通过制定安全策略,可以对非法访问进行访问中断。
提供操作及系统自监控等记录,日志信息包括时间戳、级别、用户、模块信息及日志正文。支持记录和查看系统运行日志和审计日志。支持系统运行日志和用户访问操作日志的记录、查询和展示。支持HDFS、MapReduce、HBase、Hive和Zookeeper的运行日志的记录和查看。支持系统运行日志分级,至少包括IN-F0、WARN、ERROR、FATAL等。支持HDFS、MapReduce和Hive的系统审计日志的记录和查看。
3.1.2.3数据访问控制
数据纳入系统管理后,运维人员对数据库的访问均通过系统进行。运维人员需要访问数据库的数据时,需要首先登录系统,对用户进行身份鉴别和权限判别,确定用户的真实身份并判断是否有数据库的访问权限,如果没有权限则无法访问数据。身份鉴别和权限判别通过后,系统根据安全策略进行访问控制,限制用户对数据库具体文件、目录和数据库表的访问。如限制用户只能对指定的数据库表执行查询操作,不能进行增删改操作。
3.1.2.4数据模糊化
数据模糊化是为了防止非法人员获取数据而加设的数据防护手段,从而保证用户根据其业务所需和安全等级,恰如其分地访问敏感数据。功能由数据安全模块实现。当业务访问系统数据时,该模块对数据进行实时筛选,并依据访问者的用户角色其他IT定义规则对敏感数据进行模糊化。
上图展示了数据模糊化的运作方式,图中有三名用户对系统数据进行访问。左侧为授权用户,该用户获得授权,可查看全部详细信息。中间为非授权用户,该用户仅被授权查看以屏蔽形式显示的数据,以便执行管理任务。右侧也是非授权用户,如开发人员、DBA或生产支持人员,他们出于IT方面的用途而需要以相应格式显示的信息,因此将向他们提供加密过的数值。
数据安全模块以网关形式部署在系统数据库前端,数据模糊化需要系统做相应改造,将对数据库的所有访问请求发送给数据安全模块,由其代理进行相应的模糊化操作。
3.1.2.5数据下载审批
用户访问主机数据库数据时,如需要下载某些数据到本地计算机阅读或传播使用,需进行数据下载的电子审批,系统将下载信息发送给用户的直属主管。直属主管如同意该申请则,系统发送电子验证码到访问用户,访问用户输入该电子验证码通过审批,用户通过审批后在限定时间内获得数据下载权限;如直接上级不同意该数据下载操作不能进行。用户的全部操作流程系统进行日志记录,留待后续审计。 3.1.2.6数据安全审计
数据安全审计由数据安全模块实现,数据安全模块对系统产生的数据访问日志记录进行获取并整理。其中包括数据存储日志记录、数据获取日志记录以及元数据管理和数据权限及策略管理的日志记录。
日志记录获取功能得到的日志记录信息,存储到介质前,需要作日志记录格式化、日志记录信息校验、以及日志记录敏感级别管理,以保证存储的日志记录是准确、有效、可以参与安全控制的。
数据安全审计主要是在发生数据安全事故后,根据相关数据信息进行责任定位的手段。为有效追蹤,数据安全模块可以按照用户工号、登录IP、访问时间、访问模块和地域等提供日志的组合查询统计;管理人员根据授权可以查询、统计、浏览、导出用户的操作日志,及时发现和处理非法和违规的数据操作。
3.1.2.7数据备份和恢复
为避免数据由于设备故障、损坏,以及灾难性事件等不可抗力而丢失或损坏。则需提供完备的数据备份和恢复机制。数据备份基本策略的设定有以下几种方式:
(1)数据库全量备份:按照系统的要求,每周备份一次;
(2)数据库增量备份:由备份主机执行增量备份,每晚业务空闲时进行备份;
(3)文件全量备份:由备份主机执行文件数据全备份,每周自动备份一次;
(4)文件增量备份:由备份主机执行增量备份,每晚业务空闲时进行备份。
结合以上备份策略,从便于管理和恢复的角度去考虑,制订数据分组对应策略,将数据分门别类放在不同编号的磁带组上,并建立不同的存取权限。应同样需要建立:数据库介质,专门放置数据库信息。文件介质,除数据库以外的文件。
3.1.3数据体检
数据体检犹如人定期做的体检一样,及时了解数据的健康状况。对公安机关的数据系统来说,由于数据资产信息的隐蔽性、系统结构的复杂度、管理操作过程的高难度,一旦质量问题发生,就可能造成严重影响。因此,定期进行“健康体检”,及早发现问题隐患并予以解决,是防范数据质量问题引起不良后果的重要手段。
目前,武汉市公安局里业务系统众多,数据来源广,导致了数据库中的数据表多,表关系不明了,数据质量不高,库和表对系统的资源占用情况不清楚,数据流向未知等,对现有公安警务数据做一个全方位的数据体检还是非常有必要的。
数据体检即可以帮助管理者直观的了解数据的整体健康状况,又可以总体评价由系统资源状况评估、空间使用情况评估、标准化程度评估、数据状态评估四项的评价,进行权重分配后计算得出一个总结性的评价。一般而言,数据体检包括如下几个方向:
(1)标准化程度评估,由定义警务数据对象的管理标准(表命名、字段命名、注释、字段类型定义等),分析实际数据环境与公安警务数据标准的差异,符合标准定义的为已标准化,反之未标准化。计算已标准化数据对象在全部数据对象中的占比,从而得出“数据标准化程度”,并以此做为评价数据标准化程度的依据。最终通过堆积图反映现有数据平台标准化程度的变化。
(2)数据使用状态评估,重要表数据占比是数据使用状态评估的主要依据,通过重要表数据占比情况,判断数据的整体使用情况和数据利用情况。数据只用状态评估通过数据的直接访问、问接访问(直接访问数据所依赖的前端数据节点都视为间接访问)和程序引用次数,将数据使用的使用状况分为重要、冷清、孤立三种状态。
(3)数据冗余度评估,通过表的数据结构与处理路径规则的对比,计算对象间的数据相似性,从而判断数据是否存在冗余。冗余数据对象占总体数据对象的比例即为数据平台的冗余率,百分比分值为冗余度。冗余度评估是对平台总体数据冗余情况的评价。另外,可根据实际应用情况对冗余数据进行调整,设置为合理冗余或不合理冗余,合理冗余将不计入冗余度计算。
(4)系统资源状态评估,设置CPU、内存平均利用率指标,跟踪监测在一段时间内的CPU、内存平均利用率情况,并以此评价计算资源的健康状况。通过长时间的跟踪分析系统资源负载情况,帮助管理人员、维护人员快速了解系统负载的高峰时段,并合理的分配系统资源的使用时间,均衡负载,同时为系统扩容提供依据。
(5)空间使用情况评估,跟踪分析数据中心的空间使用情况,并预测空间的未来可使用时长,以便更好的规划数据中心的空间使用,并及时、科学的进行系统扩容。
(6)处理效能评估,设置任务的总体波动率,跟踪分析一段时间周期内总体任务处理的时间波动情况,并以此评价数据处理效能的健康状况。在具体处理效能评估中,将从任务流和任务两个角度,对数据平台上任务处理的效能进行跟踪分析,从而找到影响任务波动的关键环节。
3.2警务数据管控驱动创新实践
以上章节分析了目前公安警务数据所面临的问题以及针对现有警务数据应该做好的数据治理、数据安全以及数据体检的工作。综合而看,通过数据资产管理理念和技术的运用,将有力的解决公安警务工作实际问题,并实现大数据公安警务的创新实践。
3.2.1警务数据治理保障公安警务数据进入良性发展循环
目前,武汉市公安局警务数据的标准化工作正在开展,元数据也进行了有效管理。但是数据治理中另外一个很重要的环节——数据质量管理,公安警务数据目前尚未完成。
数据质量管理是要对数据进行常态化,自动化的管理,从而达到在数据质量方面的全面、可控,问题可迅速定位和解决。根据公安警务数据的现状,我们认为对公安警务数据的全方位质量管控十分有必要。首先,公安警务数据治理如果只经过现有的标准化和元数据管理,并不能实现数据质量的有效保证。例如,如果不进行数据质量管控就对数据进行上线,虽然制定了数据标准和元数据模型,但是没有执行检查的工作,此前所有的工作都只是流于形式,没有实际意义。只有经过数据标准化,并且对元数据进行了管控,落实执行以确保所有的标准和规范通过,整个数据治理工作才算完整,公安警务数据才会进入一个良性发展的循环。更进一步来说,只有经过质量检查的数据才能真正算作是公安警务数据资产。其次,在应用运行过程中如果没有同步的数据质量管理,则有可能出现我们难以掌控的问题。例如:由于没有经过数据质量管理和数据体检,导致数据异常,数据量暴增,最终导致数据库奔溃。工作人员如果不对数据库进行查询和使用,甚至都不能及时了解这类情况的出现。所以,制定适当的质量管理策略十分必要。如此一来,所有的数据都是经过标准化的数据;通过元数据分析,所有的表关系也会清晰明了;更重要的是,经过质量策略管理过的数据,其数据质量也得到了有效保证。在数据库中一般再出现大量不符合质量标准的数据,即使出现数据质量问题,也会因为设置了质量规则,而迅速找到问题根源所在,从而快速的解决问题,保证了整个系统的高效运行。最后,全方位的数据质量管理,在出现问题后可以对所遇到的问题进行分析总结,并留存到知识库中供后续运维、学习使用。 此外,针对目前的警务数据治理现状,我们还是有更多的其他工作可以考虑,如元数据图谱的建立,更为先进的前向元数据管理,智能阈值调整,基于分词的自动命名规则推荐以及自动生成标准化词库等。
3.2.2安全策略确保警务数据的可靠使用
数据安全问题就像双刃剑,管控得力可以助力公安警务大数据繁荣,成为公安行业的数据资产。否则将会成为制约公安警务大数据发展的难题。我们需要通过多种安全技术及策略,如权限控制、隐私数据配置与转化、数字水印服务、日志记录、访问轨迹跟踪、加篇密和安全审计、数据导出保护,保障数据中心的数据安全,实现安全风险的事前可管、事中可控、事后可查的“三全式”进行安全管控保障。(1)事前包括策略设定和风险评估。策略设定,包括账号体系的建立,数据保护策略的设置,流程制度的制定;风险评估,包括安全级别评估、安全漏洞发现、敏感数据发现。经过事先的策略设定和依照设定的策略进行风险预评估可对目前公安警务数据安全的空白构筑起坚实的安全基础。所有的流程进行都应按照设定的安全策略执行,防控风险于未然;安全级别评估和漏洞检测等都是主动发现安全问题,可以有效减少安全事故发生,其成本最小,能杜绝的风险也最大。(2)事中的安全策略执行和安全网关的守护可以有效保证应用的安全执行。根据设定的安全策略,将执行敏感数据检查,权限检查,若发现异常,进行异常告警和处理;同时,JDBC代理、Hive代理、HDFS的安全网关技术手段可以有力的保证应用的正常执行。事中的安全防护是应对数据安全问题的重要保障,目前公安警务数据的访问和使用安全措施匮乏,有比较严重的数据安全隐患。如果能设置适当的安全保护措施,对数据访问进行审核,对异常的数据流量立刻中断等等都可以有效保护警务数据资产不被窃取盗用。(3)事后的安全组件控制和安全审计,分别提供了数据水印、数据溯源、离线访问控制和日志审查、审计脚本执行等方式。事后的安全审计和分析是数据安全问题的必要手段,能及时发现在事前和事中没有被发掘的数据安全问题,从而对数据安全问题造成的损失进行补救和追责。
因此可以对长期或短期的风险进行防控,安全问题不再是一种阻力,而是良性发展的驱动力,即警务数据安全管控也是为了推动警务数据产业更好的发展。
3.2.3警务数据体检清晰呈现数据资产视图
由于公安警务数据这样来源口径众多,数据关系复杂的综合型数据库错综复杂。因此,在公安机关里全方位的数据体检势在必行。
数据体检的目标有两个:数据资产展现、数据流图展现。经过数据体检实现公安警务数据的资产现状进行分类展示,公安警务数据从各业务系统汇聚后的数据流向和表与表间的关系。數据资产展现,是通过数据体检,着重于帮助管理者通过模型、存储、记录等指标快速的了解企业数据资产的总体规模与分布情况。目前武汉市公安局里警务数据需要对每周、每月的数据增量进行环比和同比的增量分析,对具体每类数据的分布情况利用图标的方式进行展示,有助于帮助业务人员快速直观的了解数据规模、数据增量和数据分布情况。数据流图展现是经过数据体检和数据治理血缘分析后,将数据的流向关系进行清晰明了的展示。数据流图更关注数据实时流动的情况,方便管理者和技术人员快速了解当前数据流动、运行的状况,并快速定位具体运行滞留点。目前武汉市公安局里警务数据的数据流向关系展现有待实现。
3.2.4警务数据治理助力开展警务工作
警务数据作为资产进行管理和治理,建立数据治理、数据管控后让数据质量更好,增加有效工作时间用于分析数据,减少搜索数据的时间,提升警务工作的效力与效率,形成大数据创新警务模式和应用,为警务工作提档升级发挥着重要作用。
数据治理有助于实现预测警务。通过对重点人员、警情、网上舆论的数据治理、深度挖掘、进行研判,建立基于重点人员动态轨迹异常行为、动态警情、网络舆情等智能分析模型,实时分析研判重点人员、警情、网情、舆情等各类数据,帮助情报人员提高从大量的预警信息中发现情报线索的研判效率,实现警情态势提前预测、重点人员及物品动态管控、治安形势提前预测、违法犯罪提前预防、各类群体提前掌控、网络舆情提前应对和预防。
数据治理有助于提升主动警务。在警务方面,充分依托一体化侦查办案平台,加强治安、刑侦、经侦、网安、国保、视侦、技侦、禁毒等侦查办案系统的整合,全面共享集成与案件相关的各类资源数据,利用“大数据”智能排查、多轨联控、多库联侦、关联比对、数据碰撞的作用,有助于构建多警种快速合成、多手段同步上岸新格局,各类案件侦破的能力明显增强。在队伍管理方面,通过信息化手段全面及时收集执法办案、队伍管理、服务民生中存在的接处警、受立案、涉案财物管理、行政审批、涉法信访、举报投诉、复议复核、行政诉讼等各类问题,形成“问题数据库”开展综合分析研判,确定重点单位、重点警种、重点问题,对存在的问题早发现、早制止、早解决、早纠正,有针对性地指导开展执法肃纪活动,提升执法能力、执法质量和执法公信力。将大数据与公安队伍管理工作有机结合,及时掌握基层队伍管理、民警个人思想、身体健康、家庭生活等行为状况,建立民警个人电子档案,加强队伍动态管控,形成个性化、定制化的管理、培训、考核、咨询服务。创新队伍管理模式,形成“以数据评估能效,以数据实施考核”的动态绩效管理考核机制,不断激发队伍内在活力、增强队伍凝聚力、提升公安战斗力。
数据治理有助于打造动态警务。在日常工作过程中,会产生大量交通数据、人员信息、基层民警工作数据、视频图像数据等各类数据,将这些数据经过治理并用到公安管理智慧化、科学化的决策中,建立一套公安大数据可视化政府决策系统。可视化系统根据警务工作需要,对涉及警员车辆定位信息、视频监控信息、110报警警情、辖区社会信息、巡逻防控区和警务区划分等图层功能,在地图上进行叠加显示,实现对警情处置的动态指挥调度。等领域的重大工作在地图上进行可视化展现,建立重大问题的预警处置机制,确保决策层及时全面掌握信息,进行协同办公,为科学决策提供依据。 数据治理有助于打造民生警务。以群众需求为根本导向,全面整合治安、交管、消防、出入境等公安各项网上行政审批及便民服务功能,充分利用互联网载体开展“互联网+公安”应用,让群众足不出户就可了解办事流程,打开电脑就能办理业务。依托微信、微博、移动终端APP、网上在线互动等多种新媒体渠道,整合“平安武汉”微博、武汉交警微信服务平台等应用,延伸“网上警局”服务,拓展警务公开范围,开通立案公开查询功能;建设大数据公共服务系统,服务党委、政府各部门、各行业共享大数据资源,重点在经济发展、城市规划、财税征收、民生保障、公共服务等领域提供强有力的数据服务和支撑,推进经济产业融合和发展,服务经济发展、公共安全和惠及民生,提升城市功能和品质。
数据治理有助于打造合成警务。围绕地面、地下、空中、水上、网络“五位一体”要素,形成全时空、全方位、全区域的立体化治安防控格局。整合公安原有多个治安管理业务系统,建设智能大巡控系统,实施“科技导防、立体布防、群众自防”战略和“六张网”相结合的全市梯级智能化防控网,利用大数据碰撞、关联分析,将违法犯罪警情与犯罪行为特征以及活动空间位置一并进行关联分析;智能分析评估社会治安态势、违法犯罪趋势和城市安全风险;依托天网作战系统视频巡防和动态人像识别功能,实现对社会面、居民区、学校、商圈、医院、内保单位、治安场所等部位实时监控;利用历史及当前警情数据进行时间空间分析,预测辖区内未来指定时间段内犯罪案件发生的概率及分布,结合人口密度、治安状况、地理位置等因素,科学划分巡逻区域,优化巡防力量布局,实时将警力投放在警情高发时段和区域,增强防控的针对性和实效性,减少案件发生。建设微警务系统,发动市民通过APP应用,随时随地采集各类治安微信息,参与城市管理,排除治安隐患,增强城市安全。开展宣传防范、报警求助、提供线索、便民服务等微服务,实现各项警务活动更主动、更亲民、更实效。
3.3警务数据资产管理效果展望
在公安警务数据现状中发现,现有公安警务数据管控存在着巨大的提升空间,经过数据治理、数据安全管控和数据体检,让原来的一些并不标准以及不完全用到的数据资源使之上升为可用的数据资产。
從治理上看,警务数据经过治理,均是标准化的存在,辅助以元模型的表关系分析,很容易就知道两张表的关系,另外数据质量管控从各个阶段都保证了数据的合规性,所有流程都有迹可循,可追本溯源。数据治理是后续一切工作的基础,解决了治理的难题,后续应用实现等相对应的工作都更容易实现。
从数据安全上看,警务数据经过资产化管理后,不用再担心数据被未授权访问甚至是盗取。不同的人员角色有不同的权限,未经授权不能越权访问。对敏感数据进行加密处理或模糊化处理,有效保证敏感数据不泄露。数据经过加密后即使被非法拿到也可避免严重的损失。
从数据体检来看,把警务数据作为资产来管理,可以对所有警务数据资产做到心中有数,可提高数据资产的可靠性;可促进数据治理的良性运作;同时还可以提升资源的科学管理能力。数据体检和数据资产视图让管理者可以从全局上把控警务数据的管理。
从数据提升警务工作来看,基于经过治理后的数据挖掘、应用有助于,构建基于大数据的智能化实战应用体系,实现公安信息化由封闭、分散、孤立、简单的业务应用,向开放、集成、共享、智能的高端应用转型,实现警务模式由被动向主动转变、由传统向现代转变,打造“平安武汉”建设信息化升级版,努力实现“社会更稳定、城市更有序、群众更便捷、队伍更过硬”的平安武汉梦。
4.研究结论
研究结论表明解决既有问题、提升信息化应用效益为出发点,以云计算、大数据处理等新技术为关键支撑,以服务实战应用为根本目标,通过成熟的数据交换技术,汇集公安内部所有的信息资源,强化信息资源梳理整合建设便捷高效的应用功能,形成武汉公安信息资源应用服务新体系。
武汉市公安智慧大数据平台的建设工作可以从数据治理、数据安全和数据体检三个方面着手开始建设。数据治理是基础,所有工作都是在此前提下进行的;数据安全是保障,数据的合法访问都要依靠数据安全来展开;数据体检是手段,可以有效提高警务数据的综合管理和运营。从数据资产管理的角度来看,武汉市公安局已经开始着手初期的整顿工作,还需要辅助以后续的资产管理手段来实现资源到资产的升华。
目前武汉公安警务数据还在进行标准化工作,还有一段路要走。以下就目前的情况对武汉公安大数据平台建设还有以下几方面的做工需要进行。
标准化工作应该将数据质量管理、数据生命周期管理纳入进来,以达到全面的数据治理效果;
数据安全工作应完善,可从警务数据资产的高度对所拥有的警务数据资产进行策略设定,安全防控,漏洞检查等;
数据体检和资产视图十分必要,从全局的高度去考虑,将所有的数据资产情况进行整理分类,让数据资产一目了然。