论文部分内容阅读
经济全球化的发展,使恐怖袭击活动也呈现出全球化的蔓延态势,这不仅破坏了国际社会和平与稳定的良好秩序,还严重影响了人类生命财产的安全,打击恐怖袭击活动已然成为一项刻不容缓的任务。如何能研究出恐怖袭击事件的本质特征和演变规律,以及侦破一系列未知凶手的恐怖袭击事件成为越来越多国家关注的重点。为了研究大量恐怖袭击活动信息背后潜在的规律,越来越多的情报分析部门和反恐执法人员研究将恐怖袭击活动相关的非结构化数据转化为结构化数据,然后借助数据挖掘技术从海量的恐怖袭击数据中提取有价值的信息,给有关反恐部门的决策提供情报支持。为了找出未知作案凶手的恐袭案件的潜在作案团伙,协助反恐情报分析人员侦破案件,本文采用全球恐怖主义数据库(Global Terrorism Database,GTD)。针对恐怖袭击事件的原始数据集,通过数据预处理后,采用“哈希关键信息提取法”对恐怖袭击数据进行降维分析,选择更能反映恐怖主义袭击事件真实分布和本质特点的特征子集,极大地降低了数据的维度,使得从原数据集的133维降到32维,并用“0”或“1”表示各个属性的值,“0”代表该属性对恐怖袭击的影响小,“1”代表该属性对恐怖袭击的影响大。本文采用“哈希关键信息提取法”不仅极大地减少了待分析的数据,提高了训练及检测速度,也有效地降低了噪声数据,使其更有效地反映相关数据的特征性质。经K-Means、BIRCH和GMM三个聚类算法的实验检验,证明了“哈希关键信息提取法”的有效性;进而,基于选择的特征子集,本文提出基于深度自编码表征的改进聚类算法,先将稀疏和欠规范的原始数据映射为类内紧凑平滑的数据,再进行聚类分析。经三个经典聚类算法的实验验证,改进后的基于深度自编码表征的聚类算法相对于传统的聚类算法,在聚类的准确率、轮廓系数、Calinski-Harabasz等指标都有提升;最后,在对数据聚类基础上,本文研究采用半监督学习方法,将无标签的恐怖袭击数据按概率形式进行标签化,探讨将无标签的恐怖袭击事件与已标记的恐怖袭击事件作案团伙的合并。进而为有关反恐部门的行动部署提供决策支持,为将类似案件并案侦破,提高破案效率提供数据支持。本文提出的哈希特征提取和深度自编码表征方法,具有一定的通用性和扩展性,可以为其它研究领域的数据特征提取提供参考与借鉴。提出的聚类框架同样可以推广到其它研究领域。