论文部分内容阅读
随着计算机取证技术的快速发展,电子证据管理系统中积累了大量的数据。之前的联机分析处理和简单的统计、关联分析技术已经无法满足公安人员的需求。为了从这些杂而乱的电子证据中获得隐藏的知识,本文提出了基于数据挖掘的电子证据分析模型。本文的主要研究就是将数据挖掘的关联规则技术应用到电子证据分析中,分析了现有的关联规则挖掘算法的不足,不仅提出了对现有算法的改进算法而且提出了新的算法思路。本文的主要贡献为:(1)本文提出了FP-Growth算法的改进算法(ISPO-tree)并且给出了理论证明,此算法只需要一次浏览数据库,并且增加了支持少量修改证据的功能;首次提出了相似频繁挖掘算法DC-STree,此理论目前在电子证据分析领域是空白,该算法通过制定相似的规则让不相等属性值而相等提高了数据预处理的时间效率,在支持度和冗余最优条件下,可以挖掘出更多的关联规则;针对犯罪地点杂而乱导致挖掘效果不佳的问题,提出了基于犯罪地点的频繁活动圈算法并给出了理论证明。(2)本文给出了这两个算法的伪代码和电子证据分析实例进行了验证。实例一是以案件类型为主题研究了违法案件与刑事案件的关联关系。实例二以案件类型进行分类挖掘每个案件类型的不同嫌疑人之间的在年龄、学历、作案时间以及作案地点等之间的关联关系,分析某种案件的关联频繁活动区域、嫌疑人作案的频繁活动区域以及犯罪同伙。(3)本文设计了整个系统的框架以及工作流程,给出了电子证据预处理、频繁模式挖掘以及相似频繁模式挖掘这三个模块的界面展示图,通过系统测试并且与前人研究方法的实验结果进行了对比分析。总而言之,从理论分析到实验结果证明,本文所提出的关联规则算法是有效而高效的,为数据挖掘技术在电子证据分析应用领域提供了新思路并拓展了该技术的使用范围。