论文部分内容阅读
[摘要]大数据时代公安部门所掌握的各项数据越来越多,传统的结构化数据库系统面对越来越纷繁复杂的非结构化数据越来越吃力,在时效性上难以起到预期的作用,因此更高效、更便捷的SAP HANA内存数据厍运算技术应运而生,本文将试论在公安大数据分析平台引入“SAP HANA”技术的可行性和优越性,以及该技术将对公安工作产生的变化与影响。
[关键词]公安大数据;SAP HANA;数据分析
中图分类号:TP311.13 文献标识码:A 文章编号:1009-914X(2015)05-0141-01
1引言
近年来,大数据这个概念被越来越多的提及,信息大爆炸的时代已经到来,现阶段建设新的能够匹配公安业务场景的大数据系统是公安部门的迫切需求。公安工作与大数据也已然开始产生密切的联系,基于各种技术的大数据平台也在被建立起来,本文就基于“SAP HANA”技术的公安大数据分析平台做一个展望。
2公安工作对大数据平台的需求
公安部门掌握的数据越来越多,对于这些不同来源、不同类型、不同格式的数据,现有的公安警务数据平台无论是规模还是架构都很难适应在海量数据场景下的数据管理和分析,直接影响了公安形势预判和重大决策,因此,在现阶段建设新的能够匹配公安业务场景的大数据系统是公安部门的迫切需求。新建设的公安大数据系统,需要做到:PB级数据存储管理,多种数据类型与协议支持,高质量的数据整合,高效的数据分析能力,可管理和开放性,安全可靠,自主可控。
3现有大数据平台的缺陷
对于数据可以划分为两类:结构化数据和非结构化数据,非结构化数据没有统一的大小和格式,给分析和挖掘带来了很大的挑战。而现有的数据平台对非结构化的数据处理起来就非常的吃力。面对冗杂无序的庞大数据,简单的人海战术已经跟不上社会发展的步伐,因此更高效、更便捷的SAP HANA内存数据库运算技术应运而生,它的产生让数据存储、运算速度得到了极大的提高,让TB乃至PB级数据分析、处理和存储变得更加快捷稳定,也让大数据分析平台的搭建有了新的选择途径。
4 SAP HANA技术
HANA(High-Performance Analytic Appliance)是德国SAP软件公司开发的是一个软硬件结合体。它能够提供高性能的数据查询功能,可以直接对大量实时业务数据进行查询和分析,不需要对业务数据进行建模、聚合。
4.1 SAP HANA技术特点
4.1.1软件方面
相对于Oracle等传统关系型数据库,SAP HANA内存数据库不仅在维护数据的完整性、一致性方面做到了最好,而且在传统关系型数据库并不擅长的领域——难以顾及数据处理实效要求方面实现了突破。追本溯源,之所以SAP HANA实现了对Oracle等传统关系型数据库的超越,是因为其采用了改进的数据压缩、行列式数据存储和内存计算技术。将海量数据经过高效压缩存储至HANA的大内存数据厍,提高查询和分析效率。
数据压缩:SAP HANA采用数据字典的方法对数据进行压缩,用整数来代表相应的文本。对于数据格式相对单一的结构化数据源,这种压缩方式非常有效,数据读写速度也因此得到提升。
行列式存储:有人曾形象的比喻,HANA可以“识别”用户在插入数据和输出数据时的真正意图。实际上这是因为HANA采用了行列式存储方式,即增量更新(插入数据)时,HANA将它视为行式数据库;而输出数据时,HANA又充分利用其列式结构适合数据压缩的优点稳定快速的输出数据。而传统关系型数据库则需要牺牲其中一种方式来保证速度。
内存数据库计算技术:根据计算机组成原理我们知道数据是从磁盘->通过数据总线和控制器(RAID,I/O hub等)—->内存—->CPU Cache-->CPU进行数据处理(CPU寄存器)。HANA内存数据库,就是将数据放在内存中直接操作,跨过了数据总线和控制器,直接与CPU cache进行数据传输,数据读写速度比磁盘读写速度高出几个数量级,极大地提高了计算速度,缩短了时间。内存的访问速度比磁盘快1,000,000倍。传统磁盘读取是5毫秒,内存读取是5纳秒,比SSD和闪存快1000倍。虽然寄存器和Cache的读取数据的速度比内存快,但在实际的数据处理中却应用较少。
在传统的数据库中,由于内存存储的数據有易失性,系统断电或重启后内存中的数据就会丢失,对此SAP HAHA采取后台异步进程savepoint(Data persistence)定时把内存数据存储到磁盘中,大大降低了因故障导致数据存储丢失的问题。
4.1.2硬件方面
SAP不仅在软件领域独树一帜,在硬件研发方面也积极创新,和多个国际硬件厂商开展了合作,开发了多款支持HANA的高性能服务器,包括DellR910、Fujitsu RX600 S6、HP DL980 G7、IBM x3850等服务器。
4.2 SAP HANA技术应用
正是基于对SAP HANA高性能的认同,SAP内存计算技术正在全球内广泛应用,不断的转变人们的思考、重新规划着人们的生活和工作方式。
以亚太区第一家上线HANA技术的某快速消费品企业为例,该企业年销售额近百亿元,业务涉及生产、销售、计划、调度、物流、市场营销等多个方面,这对企业的综合管理和整体运营能力提出了很高的要求。同时,作为一个快速消费品行业企业,准确实时的数据对于企业来说非常重要,企业高管如果要对瞬息万变的市场行情做出准确的判断,就必须依据准确实时的数据进行科学决策。
该企业在应用了HANA技术后,确实提高了数据查询、处理的能力。数据展现能力快速提高。据测试,商业智能报表快25~30倍,逻辑计算能力速度提高了约150倍,而且,越是复杂的运算,HANA的逻辑运算能力就越突出,数据实时、同步真正实现。
5公安工作应用hana技术的可行性
公安部门的各类信息来源(公安管控信息、社会管理信息和社会公开信息等)中,人口信息、水电煤气信息、通讯信息、网络账号、图像、声音以及视频等信息绝大部分是非结构化数据。在这个“非结构化数据时代”,主要用于管理结构化数据的传统关系型数据库受限明显,尤其是运算速度过慢被人所诟病。而采用擅长大数据运算的SAP HANA技术无疑是明智的选择。
首先,从数据采集及存储方面来看,作为内存数据库,SAP HANA可以将庞大的公安数据,通过高效的数据压缩和行列式存储功能进行优化,存储在HANA大内存数据库中,进而为侦察员提供高效便捷的案事件信息查询功能。值得一提的是,HANA技术采用的数据压缩和行列式存储不会破坏数据原有格式,而且可还原性非常高,非常适合侦察员保留案件原始资料和数据,提高自主分析比对不同案事件的能力。其次,从分析应用来看,作为综合应用分析平台,SAP HANA依靠其高速的逻辑运算模式,可以有效支撑TB级别以上的大数据运算,将大幅提高公安整体工作效率和水平。
综上所述,公安部门为了在“大数据时代”脱颖而出,加强信息化建设,提高公安办案水平,强化预警节点突发情况能力,不断升级服务公共决策水平,为顶层设计提供可靠依据。而以SAP HANA技术为基础数据库应用的设想,无疑是目前公安部门破解大数据难题的理想选择。
[关键词]公安大数据;SAP HANA;数据分析
中图分类号:TP311.13 文献标识码:A 文章编号:1009-914X(2015)05-0141-01
1引言
近年来,大数据这个概念被越来越多的提及,信息大爆炸的时代已经到来,现阶段建设新的能够匹配公安业务场景的大数据系统是公安部门的迫切需求。公安工作与大数据也已然开始产生密切的联系,基于各种技术的大数据平台也在被建立起来,本文就基于“SAP HANA”技术的公安大数据分析平台做一个展望。
2公安工作对大数据平台的需求
公安部门掌握的数据越来越多,对于这些不同来源、不同类型、不同格式的数据,现有的公安警务数据平台无论是规模还是架构都很难适应在海量数据场景下的数据管理和分析,直接影响了公安形势预判和重大决策,因此,在现阶段建设新的能够匹配公安业务场景的大数据系统是公安部门的迫切需求。新建设的公安大数据系统,需要做到:PB级数据存储管理,多种数据类型与协议支持,高质量的数据整合,高效的数据分析能力,可管理和开放性,安全可靠,自主可控。
3现有大数据平台的缺陷
对于数据可以划分为两类:结构化数据和非结构化数据,非结构化数据没有统一的大小和格式,给分析和挖掘带来了很大的挑战。而现有的数据平台对非结构化的数据处理起来就非常的吃力。面对冗杂无序的庞大数据,简单的人海战术已经跟不上社会发展的步伐,因此更高效、更便捷的SAP HANA内存数据库运算技术应运而生,它的产生让数据存储、运算速度得到了极大的提高,让TB乃至PB级数据分析、处理和存储变得更加快捷稳定,也让大数据分析平台的搭建有了新的选择途径。
4 SAP HANA技术
HANA(High-Performance Analytic Appliance)是德国SAP软件公司开发的是一个软硬件结合体。它能够提供高性能的数据查询功能,可以直接对大量实时业务数据进行查询和分析,不需要对业务数据进行建模、聚合。
4.1 SAP HANA技术特点
4.1.1软件方面
相对于Oracle等传统关系型数据库,SAP HANA内存数据库不仅在维护数据的完整性、一致性方面做到了最好,而且在传统关系型数据库并不擅长的领域——难以顾及数据处理实效要求方面实现了突破。追本溯源,之所以SAP HANA实现了对Oracle等传统关系型数据库的超越,是因为其采用了改进的数据压缩、行列式数据存储和内存计算技术。将海量数据经过高效压缩存储至HANA的大内存数据厍,提高查询和分析效率。
数据压缩:SAP HANA采用数据字典的方法对数据进行压缩,用整数来代表相应的文本。对于数据格式相对单一的结构化数据源,这种压缩方式非常有效,数据读写速度也因此得到提升。
行列式存储:有人曾形象的比喻,HANA可以“识别”用户在插入数据和输出数据时的真正意图。实际上这是因为HANA采用了行列式存储方式,即增量更新(插入数据)时,HANA将它视为行式数据库;而输出数据时,HANA又充分利用其列式结构适合数据压缩的优点稳定快速的输出数据。而传统关系型数据库则需要牺牲其中一种方式来保证速度。
内存数据库计算技术:根据计算机组成原理我们知道数据是从磁盘->通过数据总线和控制器(RAID,I/O hub等)—->内存—->CPU Cache-->CPU进行数据处理(CPU寄存器)。HANA内存数据库,就是将数据放在内存中直接操作,跨过了数据总线和控制器,直接与CPU cache进行数据传输,数据读写速度比磁盘读写速度高出几个数量级,极大地提高了计算速度,缩短了时间。内存的访问速度比磁盘快1,000,000倍。传统磁盘读取是5毫秒,内存读取是5纳秒,比SSD和闪存快1000倍。虽然寄存器和Cache的读取数据的速度比内存快,但在实际的数据处理中却应用较少。
在传统的数据库中,由于内存存储的数據有易失性,系统断电或重启后内存中的数据就会丢失,对此SAP HAHA采取后台异步进程savepoint(Data persistence)定时把内存数据存储到磁盘中,大大降低了因故障导致数据存储丢失的问题。
4.1.2硬件方面
SAP不仅在软件领域独树一帜,在硬件研发方面也积极创新,和多个国际硬件厂商开展了合作,开发了多款支持HANA的高性能服务器,包括DellR910、Fujitsu RX600 S6、HP DL980 G7、IBM x3850等服务器。
4.2 SAP HANA技术应用
正是基于对SAP HANA高性能的认同,SAP内存计算技术正在全球内广泛应用,不断的转变人们的思考、重新规划着人们的生活和工作方式。
以亚太区第一家上线HANA技术的某快速消费品企业为例,该企业年销售额近百亿元,业务涉及生产、销售、计划、调度、物流、市场营销等多个方面,这对企业的综合管理和整体运营能力提出了很高的要求。同时,作为一个快速消费品行业企业,准确实时的数据对于企业来说非常重要,企业高管如果要对瞬息万变的市场行情做出准确的判断,就必须依据准确实时的数据进行科学决策。
该企业在应用了HANA技术后,确实提高了数据查询、处理的能力。数据展现能力快速提高。据测试,商业智能报表快25~30倍,逻辑计算能力速度提高了约150倍,而且,越是复杂的运算,HANA的逻辑运算能力就越突出,数据实时、同步真正实现。
5公安工作应用hana技术的可行性
公安部门的各类信息来源(公安管控信息、社会管理信息和社会公开信息等)中,人口信息、水电煤气信息、通讯信息、网络账号、图像、声音以及视频等信息绝大部分是非结构化数据。在这个“非结构化数据时代”,主要用于管理结构化数据的传统关系型数据库受限明显,尤其是运算速度过慢被人所诟病。而采用擅长大数据运算的SAP HANA技术无疑是明智的选择。
首先,从数据采集及存储方面来看,作为内存数据库,SAP HANA可以将庞大的公安数据,通过高效的数据压缩和行列式存储功能进行优化,存储在HANA大内存数据库中,进而为侦察员提供高效便捷的案事件信息查询功能。值得一提的是,HANA技术采用的数据压缩和行列式存储不会破坏数据原有格式,而且可还原性非常高,非常适合侦察员保留案件原始资料和数据,提高自主分析比对不同案事件的能力。其次,从分析应用来看,作为综合应用分析平台,SAP HANA依靠其高速的逻辑运算模式,可以有效支撑TB级别以上的大数据运算,将大幅提高公安整体工作效率和水平。
综上所述,公安部门为了在“大数据时代”脱颖而出,加强信息化建设,提高公安办案水平,强化预警节点突发情况能力,不断升级服务公共决策水平,为顶层设计提供可靠依据。而以SAP HANA技术为基础数据库应用的设想,无疑是目前公安部门破解大数据难题的理想选择。