论文部分内容阅读
随着警务信息化建设的力度逐年增大,公安内部累积了海量的业务数据,越来越多的公安科技部门发现,传统的数据库技术已经出现疲软,相关情报研判和案件侦破的速度与智慧城市之间的矛盾日益突出,智慧公安成为缓解这一矛盾的关键。公安大数据挖掘技术是实现智慧公安的基础,高效、准确的大数据分析技术对公安部门的警情分析、预警、犯罪预测等具有重要意义。近几年,由于Hadoop强大的存储技术和计算能力,使其在全球范围内得到了飞速发展,这也为公安大数据挖掘提供了新的契机。 论文在大量查阅国内外文献,深入研究公安数据特性及数据挖掘算法的基础上,根据公安科技部门的实际需求,对公安大数据挖掘中的文本分类和关联规则进行了重点研究,提出了差分多层KNN分类算法和基于规则加权的多数据集时态关联规则算法,并通过实验验证了算法的有效性。为此,论文的研究内容主要集中在以下几点: (1)提出了一种基于分层和差分的改进算法——DMKNN算法。针对KNN算法在处理公安数据时无效计算量大的问题,改进后的算法对训练数据集构建树状分层结构,仅对高层筛选后的训练集进行相似度计算,同时针对大数据量下的类域交叉性特点,采用了差分和动态增加类别的方法来有效的防止最近邻和次近邻的误判情况,实验结果表明该算法与传统KNN算法相比在对样本容量大,涉及邻域多的公安数据进行分类时能取得较好的分类效果。 (2)实现了Hadoop平台下的DMKNN文本分类算法。结合文本分类并行化方案,实现了DMKNN分类算法的MapReduce并行化,最后进行了基于DMKNN算法的公安情报并行化分类实验,实验证明并行化后的改进算法具有很好的加速比性能。 (3)提出了基于规则加权的多数据集时态关联规则算法。首先将各个子数据集中的时态关联规则的时态因素分别进行区间归并和延展,并利用有效投票率对规则进行剪辑,然后对剪辑后的各个同类子数据库中的规则进行加权合成来得到最终提交的全局时态关联规则,随后以实例分析的方式实现了算法的挖掘过程。最后的犯罪预测实验证明该算法不仅可以用于不同数据库间的关联挖掘,而且很大程度上缩减了挖掘出的无意义的关联规则,具有一定的现实意义。