论文部分内容阅读
文件类型识别技术旨在依据文件实体本身所表现出的特征判断文件的类型。快速准确识别文件的真实类型,在计算机取证、病毒防护、入侵检测系统、邮件过滤及隐写分析等应用研究领域具有重要的现实意义。本文从文件的整体结构、特征码和内容三个方面研究文件类型识别技术,主要研究内容包括以下几个方面:(1)针对目前文件类型识别算法仅从单一角度识别文件类型,识别结果不准确、效率不高的问题,本文在分析文件内部特性的基础上,建立了一个文件实体特性模型,为本文的文件类型识别算法奠定了基础。(2)针对现有基于结构的文件类型识别算法判断依据有限的问题,提出一种基于整体结构的文件类型识别算法。该算法根据特定类型文件的整体结构建立该类文件的约束规则集,通过考察待测文件与规则集中约束条件的符合程度确定待测文件的类型。实验结果表明,该算法简单高效,对完整文件的识别具有很高的正确率。(3)针对现有基于特征码的文件类型识别算法判断依据不足,对不完整文件类型识别不准确的问题,提出了一种基于限定区域特征码匹配的文件类型识别算法。该算法提取文件中各种功能的元数据作为类型特征码,并采用可变长滑动窗口对待测文件进行区域划分,通过考察特征码在相应区域中的匹配情况识别文件类型。实验结果表明,该算法误报率低,对篡改或损坏的文件具有较好的适应性。(4)针对现有基于字节值频率分布的文件类型识别算法以字节为单位,描述文件内容特性的能力有限的问题,引入元组的概念,提出一种基于元组频率分布的文件类型识别算法。该算法将传统算法中的字节扩展为元组,结合元组的分散度、稳定度和条件广泛度设计出一种元组评估函数,以评估值较高的元组集为特征元组建立文件类型的指纹模型;通过比较待测文件与各类型指纹模型的相似度识别文件类型。实验结果表明,该算法不依赖于特定文件类型的结构或特征码,适用范围广,与传统算法相比查准率和查全率有显著提高。最后,对全文工作进行了总结,并对文件类型识别技术进行了展望,提出了下一步的研究方向。