论文部分内容阅读
如何快速识别种类繁多的文件类型是计算机中的一个基本问题。在数字取证、数据恢复和逆向工程等领域常常会遇到数据碎片类型识别问题,但是传统的基于扩展名和魔数的识别方法往往因为相应的数据碎片元信息遭到损坏或丢失而失效。因此,数据碎片类型识别成为了当前这些领域中亟待解决的难点和热点问题。本文针对基于内容的数据碎片类型识别问题,特别是其关键技术——数据碎片的特征提取技术,进行了深入研究,主要工作如下。首先,提出了一种基于灰度图的数据碎片类型识别方法。该方法将一维数据碎片的字节信息转化为二维的字节矩阵,并将矩阵中的字节值看作灰度图像中的像素值;再利用计算机视觉领域中的GIST Descriptor图片描述方法来提取灰度图像的特征;然后在灰度图像的GIST Descriptor特征基础之上,借助经典的分类器对数据碎片进行分类识别。实验结果表明,该方法较之于以往的归一化压缩距离和NLP等方法在识别精度方面有一定程度的提高。其次,提出一种基于频域和1-gram的数据碎片类型识别方法。为了提高识别的精度,该方法先采用离散余弦变换将数据碎片信息转化到频域之后再提取出直流系数及少部分交流系数作为碎片在频域中的特征;再使用字节频率分布提取出数据碎片中1-gram分布特征;然后将这两种特征结合并在此基础之上,借助经典的分类器对数据碎片进行分类识别。实验结果表明,该方法较之于基于灰度图、归一化压缩距离和NLP等方法,识别精度提高了10%-20%。本文针对基于内容的数据碎片类型识别问题,特别是其关键技术——数据碎片的特征提取技术,进行了研究。提出了基于灰度图以及基于频域和1-gram的两种碎片类型识别方法,并对这两种方法进行实验验证。本文的研究成果有助于文件雕复以及未知类型数据碎片的逆向自动解析等研究。