论文部分内容阅读
2013年,是大数据时代元年。大数据也随之悄然走进警务,进入全新的应用领域。公安工作在日常执法执勤的过程中会积累大量的数据。越来越多的公安科技部门发现,基于越来越庞大的警务数据规模,传统的数据库技术已经无法适应,相关数据分析和案件侦破的响应速度越来越慢,因此,建设警务数据分析平台,深入分析各种信息资源和视频资料,挖掘信息,从大型数据库或数据仓库中提取隐含的、有潜在应用价值的信息或数据,应用到公安领域,来辅助一线实战。这项工作包括海量数据的应用、挖掘、碰撞比对,以及各种技术的合成,通过对数据的挖掘,提升警务信息化,更好的提高工作效率和服务群众。本文通过研究数据挖掘的技术和算法,把警务数据中的出境数据和案件数据为数据源,进过数据的预处理和多维数据建模,从数据中挖掘出一些有益的信息。本文的主要工作有如下几方面:A.了解当前警务数据特点和大数据。公安大数据也是“大数据”的一种,数据体量大、增长快;数据来源非常丰富,种类繁多,结构不一;成规模存储,其价值密度较低;对时间相当敏感。B.构建警务数据仓库。结构为三层:底层是仓库数据库服务器,基本是一个关系数据库系统。进行数据提取、清理、变换,以及载入和刷新,以更新数据仓库;中间层是OLAP服务器;顶层是前端客户层,包括查询和报告工具、分析工具和数据挖掘工具。C.构建警务多维数据模型。基本技术为数据立方体和OLAP联机分析,并对所涉及的数据进行概念分层示例,分类方式为数值型数据和非数值型数据。多维数据模型采用星形模式构建,由事实表和维表构成。D.利用关联规则及算法Apriori挖掘出境数据。首先对数据做离散化,即将不同的属性字段继续分类,以便减少数据处理工作量,也是为了便于分析;设定频繁挖掘的最小支持度和最小置信度,挖掘频繁项集;对所得到的规则进行分析并得出结论。E.利用决策树技术和算法ID3挖掘出境数据。决策树采用根树的节点形式,树复杂度用指标衡量:节点的总数、叶子总数量、树深度和使用的属性数量。ID3算法以信息增益作为决策树分类属性标准。通过计算期望信息值、信息嫡,得到信息增益。选择使得信息增益Gain(A)最大的属性A作为决策树的根结点,然后将属性A划分为多个子集,对子集重复递归计算,生成下一级节点,直到所有属性分裂完毕并得出规则。F.利用案件数据立方生成多维数据模型,根据案件的主题设定了多个维度并可视化。利用多维报表从维度多行和维度多列的角度分析了案件的数据并得出相应的分析结论。