论文部分内容阅读
随着互联网技术和计算机技术的蓬勃发展,计算机在给人们生活带来便利的同时,以计算机作为作案工具的计算机犯罪案件也愈演愈烈。通过电子取证技术搜集电子证据成为侦破计算机犯罪案件一个研究热点。在进行证据获取时,面对数量繁多的电子文档,如何快速准确地辨析电子文档的真实类型以及从大量文本数据中提取出有用信息是取证人员面临的一个主要问题。广泛应用于信息检索、商业智能、邮件自动分类等领域的文本分类技术是解决问此题的一个有效方法。本文立足于解决电子取证领域证据获取时的文件类型识别和文本数据过滤问题,对电子取证和文本分类的相关技术进行了学习和研究。首先,讨论了电子取证的一般过程,包括证据固定、证据获取、证据分析和证据提交,指出了在证据获取阶段取证人员可能遇到的两个问题:一个是如何快速准确地识别文件的真实类型以对抗反取证技术;另一个是面对数量庞大、信息杂乱的文本数据如何过滤出感兴趣的信息,从而减少取证人员的工作量;其次,本文介绍了文本分类的一般流程、几种常用的特征选择算法、三种分类算法和性能评估标准;然后,文章以文本分类的方法应用于电子取证领域为切入点,提出了基于二进制字节流的N-gram特征提取方法识别文件类型以及基于类别区分度的改进tf*idf算法过滤某一主题文本信息;最后,本文分别设计了实验来验证这两种方法应用于证据获取的可行性,并对实验结果进行了分析。实验结果表明:使用N-gram算法对文件字节流提取文件的类型特征可以有效地识别文件类型,其中3-gram算法的识别效果最好。基于类别区分度的改进tf*idf算法具有良好的分类效果,可以准确地过滤文本信息。实验结果还表明改进tf*idf算法稳定性好,适合于特征维度较小的情况。