论文部分内容阅读
随着数据挖掘技术的不断发展,对于传统公安系统来说,越来越多的犯罪案件数据亟待处理。到目前为止,没有一个功能完善的公安系统犯罪数据挖掘系统可供使用,本文通过深入研究犯罪案件数据特性以及数据挖掘方法,通过关联规则方法和增量聚类算法构建了一个完整的公安系统犯罪数据挖掘系统。在对犯罪案件数据挖掘算法上,选择了更高效、更精确的FP-Growth算法代替传统的Apriori算法完成关联规则提取工作,在增量聚类算法上做出了一系列改进,使得改进算法的效果精度更好,鲁棒性更好:(1)采用FP-Growth算法代替传统的Apriori算法,该算法与Apriori算法一样,首先需要完成频繁项集的提取,提取完成之后建立FP树,之后在FP树上提取关联规则。(2)树形规则可以采用递归的方式提取关联规则,能够较快地完成关联规则的提取。另外,通过FP树将可以避免传统Apriori算法的重复计算冗余频繁项集的不足之处,减少了计算开销和存储开销。(3)在增量聚类算法中,使用属性约减后的犯罪数据属性特征进行BIRCH进行聚类,得到K个类别的中心点,将中心点作为核心树的叶子进行构建,计算后续进入的数据与叶子节点的距离,将不同的数据归类到相应的类别中,每个类别作为核心树的一个分支。(4)通过核心数据的迭代完善核心树各个部分的枝叶。将读入的新对象首先与各个类别的中心点进行比较,判断比较阈值,若小于阈值则归为该类,若没有类别合适,则重新构建一个核心树分支。(5)通过K-means算法对叶子节点进行后续处理,增强了核心树的鲁棒性。将叶子节点连接成链表,在链表中将每个叶子节点进行聚类,更新聚类中心。在改进算法基础上,本文设计和实现了公安系统犯罪数据挖掘系统。实验和测试结果表明,该系统与改进算法能够较快地从大量犯罪案件数据中挖掘出一些有意义的关联规则和聚类分类结果,通过实验发现关联规则和聚类结果都较好。系统从犯罪案件数据中挖掘出的关联规则和聚类特征分析,将会给公安系统相关部门的侦查破案带来很多帮助,同时也为广大老百姓提供了一些预防犯罪的信息。