论文部分内容阅读
摘要:随着公安信息化程度的不断加深,公安累积的应用数据不断增加,尤其是在推广3.20工程后,公安数据更以每天几百万条的数量级增加,如何在海量的数据中快速、有效的提取数据进行深度研判分析是一个亟待解决的问题。本文以NoSQL应用为基础,简要阐述了了其在在公安信息处理中的应用,结合实际的工作需要,在警务智能信息系统的构建和运用中进行了广泛的实践。
关键词:NoSQL 3.20工程 研判分析
一、前言
当今世界是一个信息高速发展的时代,随着网民参与互联网产品和应用的程度越来越深,互联网将更加智能,互联网的数据量也将呈爆炸式增长。可以预见公安行业信息化发展在未来几年里,数据将以每年 30%到50%的速度爆炸式增长。
在大数据时代下对系统又提出了新的需求:1、高并发读写的需求,高并发、实时动态获取和更新数据。2、海量数据的高效率存储和访问的需求,类似SNS网站,海量用户信息的高效率实时存储和查询。3、高可扩展性和高可用性的需求,需要拥有快速横向扩展能力、提供7*24小时不间断服务。
物联网发展和互联网应用带来了多源海量数据的存贮、管理、处理、融合、整合和挖掘分析问题,传统的关系数据库管理系统(SQL数据库管理系统)已不能完全适应这些海量数据的管理与计算要求,NoSQL数据库管理系统应运而生。NoSQL数据库主要有键-值存贮(key-value stores)、 BigTable、文件存贮数据库(document store databases)和图形数据库(graph databases)等類型,相关的数据库软件主要memcached, Redis, MongoDB, CouchDB, Apache Cassandra和HBase等等,都是开源的。
NoSQL数据库与传统的关系数据库管理系统相结合,为智慧城市数据管理提供整体解决方案,应用NoSQL并不是全盘否定SQL数据库,而应该是NoJustSQL依赖于SQL。
二、传统数据库在大数据处理中存在的问题
传统数据库,主要指关系型数据库,在长期的实践中体现出性能好、稳定性高等特点,在使用上也比较简单,功能强大,在实际的数据库工作和研究发挥了很好的作用。但关系数据库在应对大数据存在明显的问题:
1、分库分表缺点:
(1)受业务规则影响,需求变动导致分库分表的维护复杂。
(2)系统数据访问层代码需要修改。
2、Master-Slave缺点:
(1)Slave的实时性保障,在实时性要求很高的应用中,可能需要进行相关处理。
(2)在高可用性方面的问题,Master存在容易产生单点故障的致命弱点。
3、 MMM缺点: 本身扩展性差,一次只能一个Master可以写入,只能解决有限数据量下的可用性。
三、NoSQL概念
1、什么是NoSQL NoSQL是Not Only SQL的缩写,而不是Not SQL,它不一定遵循传统数据库的一些基本要求,比如说遵循SQL标准、ACID属性、表结构等等。相比传统数据库,叫它分布式数据管理系统更贴切,数据存储被简化更灵活,重点被放在了分布式数据管理上。
2、主流NoSQL数据库--HBase简介 HBase是Hadoop Database的简称,它是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术,可在廉价的PC Server上搭建起大规模、结构化的存储集群。
HBase是由Google Bigtable的开源实现,类似于Google Bigtable利用GFS作为其文件的存储系统,HBase利用Hadoop HDFS作为其文件的存储系统;Google是通过运行MapReduce来处理Bigtable中的海量数据,HBase同样是通过利用Hadoop MapReduce来处理HBase中的海量数据的;Google Bigtable利用 Chubby来作为协同服务,HBase是利用Zookeeper来作为对应的。
四、NoSQL的特点分析
1、NoSQL是易扩展的
NoSQL数据库的种类繁多,但是他们有一个共同的特点,就是去掉了传统关系数据库的“关系型”这一特性,所以NoSQL数据库的数据之间是无“关系”的,这样的数据库就非常容易扩展,同时,在架构的层面上也具有可扩展性,有多种NoSQL数据库之间的整合能力。
2、NoSQL是灵活的数据模型
NoSQL数据库不需要事先为要存储的数据建立对应的字段,随时可以存储自定义的数据格式。而在传统的关系数据库里,增删字段是非常麻烦的,如果是大数据量的数据库表,增加一个字段简直是很麻烦的。
3、NoSQL是高可用的
NoSQL数据库可以方便的实现高可用的架构,而且不太影响性能。比如Cassandra,HBase模型,就可以通过复制模型实现高可用。
4、NoSQL是具有大数据量的处理能力,具有高性能的特点
NoSQL数据库都具有非常高的读写性能,尤其在大数据量下,这种读写能力体现更加突出,这得益于它的“无关系性”,数据库的结构简单,NoSQL的 Cache是记录级的,是一种细粒度的Cache,所以NoSQL在这个层面上来说就要性能高很多了。
五、“3.20”工程海量数据分析应用
“3.20”工程是在江苏省公安厅统一部署下开展的路面监控建设工程,要求在市区主要道路每3公里记录一次车辆轨迹,国道等城市外围道路每20公里记录一次。
由于“3.20”工程每天产生海量过车信息,数据总量大、日均增量大、占用存储空间多,仅仅依靠Oracle关系数据库技术的存储建库模式,已不能完全满足实战应用的需求。对于传统的关系数据库来说,在一张几百亿条数据记录的表里面进行SQL查询,效率极其低下,用户不可忍受。在传统的关系数据库系统中往往采用分库、分表的策略进行数据存储,这种方式使得单表的查询效率得到提高。然而在能耗监测系统中往往需要对全局数据进行综合统计查询,往往涉及到几十上百个表,查询效率无法保证。
这就需要在“大平台”总体数据库体系下,深入研究“大数据”应用处理问题,引进HDFS分布式文件系统,采用Hadoop架构的NoSQL数据库技术,科学规划设计数据存储、传输、建库的模式,满足“3.20”工程车辆数据应用需要。NoSQL数据库采用“键-值”对的方式对数据进行存储,该存储方式是不需要固定的表结构的,也就不存在连接操作,具体操作时效率就比较高。在大数据存取上具备关系型数据库无法比拟的性能优势。
Hadoop应用场景
基于Hadoop HDFS等分布式文件系统存储结构,能够有效解决海量数据快速读写的性能瓶颈问题,是开展“大数据”应用访问、统计分析很好的解决方案。
对于需要分析的大数据,特别是对于日均增量达4000万的过车信息数据等,采用NoSQL数据库技术,运用Hadoop的HDMS结构方式进行存储建库,搭建多个“3.20”工程大数据专题库,并利用MapReduce功能来进行数据分析,多台机器组成集群进行并行计算,以此提升全省“3.20”工程大数据的处理和分析能力。
在汇集整合全省道路监控网“3.20”工程相关信息资源的基础上,结合各警种业务部门实战需求,充分利用“大数据”技术,以人车案关联分析为建设重点,实现全省一体化查询服务、人车案关联分析、重点车辆电子档案、重点车辆积分预警、警务地理信息系统对接应用、指挥调度系统对接应用等功能,面向全省基层单位、专业部门、各级公安机关领导提供系统服务,为开展深度研判应用奠定基础。
参考文献
[1]黄富洁.公安决策支持系统的研究与设计[D].济南:山东山东大学,2004
[2]张岚.浅析数据库技术的发展趋势[J].信息与电脑(理论版).2012
[3]黄贤立.NoSQL非关系型数据库的发展及应用初探[J].福建电脑.2010
[4]管建和,甘剑峰.基于Lucene全文检索引擎的应用研究与实现[J].计算机工程与设计.2007
关键词:NoSQL 3.20工程 研判分析
一、前言
当今世界是一个信息高速发展的时代,随着网民参与互联网产品和应用的程度越来越深,互联网将更加智能,互联网的数据量也将呈爆炸式增长。可以预见公安行业信息化发展在未来几年里,数据将以每年 30%到50%的速度爆炸式增长。
在大数据时代下对系统又提出了新的需求:1、高并发读写的需求,高并发、实时动态获取和更新数据。2、海量数据的高效率存储和访问的需求,类似SNS网站,海量用户信息的高效率实时存储和查询。3、高可扩展性和高可用性的需求,需要拥有快速横向扩展能力、提供7*24小时不间断服务。
物联网发展和互联网应用带来了多源海量数据的存贮、管理、处理、融合、整合和挖掘分析问题,传统的关系数据库管理系统(SQL数据库管理系统)已不能完全适应这些海量数据的管理与计算要求,NoSQL数据库管理系统应运而生。NoSQL数据库主要有键-值存贮(key-value stores)、 BigTable、文件存贮数据库(document store databases)和图形数据库(graph databases)等類型,相关的数据库软件主要memcached, Redis, MongoDB, CouchDB, Apache Cassandra和HBase等等,都是开源的。
NoSQL数据库与传统的关系数据库管理系统相结合,为智慧城市数据管理提供整体解决方案,应用NoSQL并不是全盘否定SQL数据库,而应该是NoJustSQL依赖于SQL。
二、传统数据库在大数据处理中存在的问题
传统数据库,主要指关系型数据库,在长期的实践中体现出性能好、稳定性高等特点,在使用上也比较简单,功能强大,在实际的数据库工作和研究发挥了很好的作用。但关系数据库在应对大数据存在明显的问题:
1、分库分表缺点:
(1)受业务规则影响,需求变动导致分库分表的维护复杂。
(2)系统数据访问层代码需要修改。
2、Master-Slave缺点:
(1)Slave的实时性保障,在实时性要求很高的应用中,可能需要进行相关处理。
(2)在高可用性方面的问题,Master存在容易产生单点故障的致命弱点。
3、 MMM缺点: 本身扩展性差,一次只能一个Master可以写入,只能解决有限数据量下的可用性。
三、NoSQL概念
1、什么是NoSQL NoSQL是Not Only SQL的缩写,而不是Not SQL,它不一定遵循传统数据库的一些基本要求,比如说遵循SQL标准、ACID属性、表结构等等。相比传统数据库,叫它分布式数据管理系统更贴切,数据存储被简化更灵活,重点被放在了分布式数据管理上。
2、主流NoSQL数据库--HBase简介 HBase是Hadoop Database的简称,它是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术,可在廉价的PC Server上搭建起大规模、结构化的存储集群。
HBase是由Google Bigtable的开源实现,类似于Google Bigtable利用GFS作为其文件的存储系统,HBase利用Hadoop HDFS作为其文件的存储系统;Google是通过运行MapReduce来处理Bigtable中的海量数据,HBase同样是通过利用Hadoop MapReduce来处理HBase中的海量数据的;Google Bigtable利用 Chubby来作为协同服务,HBase是利用Zookeeper来作为对应的。
四、NoSQL的特点分析
1、NoSQL是易扩展的
NoSQL数据库的种类繁多,但是他们有一个共同的特点,就是去掉了传统关系数据库的“关系型”这一特性,所以NoSQL数据库的数据之间是无“关系”的,这样的数据库就非常容易扩展,同时,在架构的层面上也具有可扩展性,有多种NoSQL数据库之间的整合能力。
2、NoSQL是灵活的数据模型
NoSQL数据库不需要事先为要存储的数据建立对应的字段,随时可以存储自定义的数据格式。而在传统的关系数据库里,增删字段是非常麻烦的,如果是大数据量的数据库表,增加一个字段简直是很麻烦的。
3、NoSQL是高可用的
NoSQL数据库可以方便的实现高可用的架构,而且不太影响性能。比如Cassandra,HBase模型,就可以通过复制模型实现高可用。
4、NoSQL是具有大数据量的处理能力,具有高性能的特点
NoSQL数据库都具有非常高的读写性能,尤其在大数据量下,这种读写能力体现更加突出,这得益于它的“无关系性”,数据库的结构简单,NoSQL的 Cache是记录级的,是一种细粒度的Cache,所以NoSQL在这个层面上来说就要性能高很多了。
五、“3.20”工程海量数据分析应用
“3.20”工程是在江苏省公安厅统一部署下开展的路面监控建设工程,要求在市区主要道路每3公里记录一次车辆轨迹,国道等城市外围道路每20公里记录一次。
由于“3.20”工程每天产生海量过车信息,数据总量大、日均增量大、占用存储空间多,仅仅依靠Oracle关系数据库技术的存储建库模式,已不能完全满足实战应用的需求。对于传统的关系数据库来说,在一张几百亿条数据记录的表里面进行SQL查询,效率极其低下,用户不可忍受。在传统的关系数据库系统中往往采用分库、分表的策略进行数据存储,这种方式使得单表的查询效率得到提高。然而在能耗监测系统中往往需要对全局数据进行综合统计查询,往往涉及到几十上百个表,查询效率无法保证。
这就需要在“大平台”总体数据库体系下,深入研究“大数据”应用处理问题,引进HDFS分布式文件系统,采用Hadoop架构的NoSQL数据库技术,科学规划设计数据存储、传输、建库的模式,满足“3.20”工程车辆数据应用需要。NoSQL数据库采用“键-值”对的方式对数据进行存储,该存储方式是不需要固定的表结构的,也就不存在连接操作,具体操作时效率就比较高。在大数据存取上具备关系型数据库无法比拟的性能优势。
Hadoop应用场景
基于Hadoop HDFS等分布式文件系统存储结构,能够有效解决海量数据快速读写的性能瓶颈问题,是开展“大数据”应用访问、统计分析很好的解决方案。
对于需要分析的大数据,特别是对于日均增量达4000万的过车信息数据等,采用NoSQL数据库技术,运用Hadoop的HDMS结构方式进行存储建库,搭建多个“3.20”工程大数据专题库,并利用MapReduce功能来进行数据分析,多台机器组成集群进行并行计算,以此提升全省“3.20”工程大数据的处理和分析能力。
在汇集整合全省道路监控网“3.20”工程相关信息资源的基础上,结合各警种业务部门实战需求,充分利用“大数据”技术,以人车案关联分析为建设重点,实现全省一体化查询服务、人车案关联分析、重点车辆电子档案、重点车辆积分预警、警务地理信息系统对接应用、指挥调度系统对接应用等功能,面向全省基层单位、专业部门、各级公安机关领导提供系统服务,为开展深度研判应用奠定基础。
参考文献
[1]黄富洁.公安决策支持系统的研究与设计[D].济南:山东山东大学,2004
[2]张岚.浅析数据库技术的发展趋势[J].信息与电脑(理论版).2012
[3]黄贤立.NoSQL非关系型数据库的发展及应用初探[J].福建电脑.2010
[4]管建和,甘剑峰.基于Lucene全文检索引擎的应用研究与实现[J].计算机工程与设计.2007