论文部分内容阅读
近些年来,各类公共安全事件已经呈现出由非常态化的偶发向常态化频发转变的趋势,人民群众的生命财产安全正面临日益严峻的挑战。为了准确追踪和监控公共安全事件的发展演化过程,需要汇聚、融合并存储管理大量的多源异构数据。由于公共安全数据具有复杂多样且获取困难等特性,公共安全业务场景灵活多变,从而造成当前在公共安全数据集成和组织管理等方面仍存在较大的不足,这已成为制约公共安全数据科学领域发展的瓶颈。因此,研究公共安全多源异构数据的处理、融合和存储管理方法,不仅可以为突发性公共安全事件治理提供有力的数据支持,而且对大数据技术在公共安全领域的实际应用也具有较高的研究价值和意义。根据上述背景,本文主要研究工作如下:首先,围绕公共安全数据的三个主要特点,结合公共安全数据的不同管理需求,对数据接入、数据处理以及数据存储三个阶段,设计了各自的技术解决方案,提出了公共安全大数据的全链条、多层次融合与存储管理的系统整体架构。其次,研究了公共安全大数据预处理与融合方法。设计并实现了基于Kettle的公共安全大数据预处理典型架构,研究了基于二分类逻辑回归模型的“脏数据”识别及数据清洗算法;采用Apriori算法构建数据间的关联度,实现数据深度融合,通过四川历年地震数据案例对算法有效性进行了验证。最后,研究了公共安全大数据存储管理平台及数据索引方法。通过对Hadoop生态圈中数据采集工具Flume、分布式计算引擎Spark及非关系型数据库HBase的整合部署,实现了基于Hadoop生态的网络舆情数据实时存储。针对公共安全数据索引慢与数据处理效率不高的问题,提出了一种基于信息熵的公共安全数据分级索引方法。实验案例说明,该实时存储架构具有良好的可行性和可靠性。