论文部分内容阅读
随着Internet的飞速发展和普及,计算机犯罪越来越严重,造成的损失也越来越大。如何提取计算机犯罪的证据成为利用法律武器打击计算机犯罪首要解决的问题,计算机犯罪取证的研究由此应运而生。目前,国内外有关专家、学者都正在研究计算机犯罪取证的问题,但都局限于关键字查找、模式匹配、文件属性分析等技术,缺乏对海量数据处理能力;在取证中需要大量人工参与,并且无法对可能的、潜在的计算机犯罪进行预测;缺乏对计算机证据间隐藏信息和犯罪模式的挖掘能力。数据挖掘技术具有强大的数据处理能力;能够减少人工参与,具有自动化和智能化的优点;具有描述和预测的功能。针对目前取证工具中的这些问题,结合数据挖掘技术在数据处理方面的优势,越来越多的专家和学者开始研究如何把数据挖掘技术应用到计算机犯罪取证的领域中。首先,为了在海量数据中挖掘出与计算机犯罪有关的证据和各证据项之间的关联规则,并在这些规则的基础上进一步挖掘出犯罪的规律、趋势和不同犯罪行为之间的关联,本课题在FP-Growth(Frequent-Patten Growth)算法的基础上,针对计算机犯罪取证的特殊性要求,提出了两种改进算法。一种是改进了FP-Growth算法的频繁一项集生成方法,提高了FP-Growth算法对新犯罪行为的敏感度;一种是改进了FP-Growth算法,使不同性质的犯罪记录具有不同的权重,也就是使不同性质的犯罪记录具有不同的重要性,增加了这些记录生成关联规则的可能性,理论分析和实验结果证明,改进后的算法更加适合于计算机犯罪取证领域。其次,为了更好地对犯罪行为进行分类和生成犯罪知识库,针对ID3(IterativeDichotomiser3)算法自身的通用性和取证数据的独特性,从信息增益方面对现有的ID3算法进行改进,使其能更适合计算机犯罪取证领域数据,理论分析和实验结果证明,改进后的算法是有效的。