论文部分内容阅读
起源于数字取证领域的文件碎片的类型识别,就是对不完整的数据块进行原文件类型识别的过程。随着文件碎片类型识别研究的深入这项识别技术不在局限于数字取证,逐渐发展到网络安全、逆向工程和网络协议解析等领域。在这些领域中,“如何快速准确地识别出文件碎片的文件类型或数据包中所含有数据的文件类型”是一个至关重要的问题。已有的方法主要集中在提高文件碎片类型的识别精度上进行研究,但这些方法在当前海量数据情况下往往在分类性能上存在问题,本文针对海量文件碎片类型识别所存在的问题进行研究,并提出相应的解决方法。首先,本文提出一种基于分层模型的文件碎片类型识别方法。针对文件碎片类型识别中需要分类的类别数越多,分类准确性越差的问题。先将各种文件类型进行聚类,减少第一次分类的数目,再在各个文件聚类的类中进行精细化识别文件碎片的所属文件类型。由于分层识别的模型中在聚类中类型数量相对少了许多,这样就缓解了分类过多带来精度降低的问题,从而提高了文件碎片类型识别的精度。对包含44种文件类型的文件碎片数据集进行类型识别的实验结果显示平均识别精度达到63.5%,平均召回率为69.8%。其次,本文还提出一种基于Map Reduce的文件碎片类型识别方法。解决文件碎片识别速度及可扩展性的问题。利用MapReduce编程模型将原大规模文件碎片数据集根据Map的数量切分成相同大小的小型数据集,并在各个Map端进行SVM迭代训练,经过两次迭代训练后得到的支持向量,最后用于建立文件碎片类型分类的SVM模型。实验结果显示文件碎片的识别平均精度为71.6%,并且需要花费的时间训练随着工作机器的增加,成倍减少。本文两种方法都是基于在文件碎片识别工作现存的问题,尝试利用分层分类和分布式计算模型,来提高文件碎片识别中的精度和识别的速度。