论文部分内容阅读
随着信息技术的发展和办公自动化的普及,PDF文档逐渐成为人们工作和学习上必不可少的首选应用文本软件。尽管PDF文档带来诸多便利,使用过程中渐渐出现很多安全问题。攻击者利用PDF文档格式漏洞嵌入恶意JavaScript代码进行攻击,获取特定目标的私密信息,给特定目标造成无法估计的损失。因此检测和防范嵌入恶意JavaScript代码的PDF文档逐渐成为信息安全领域国内外研究学者研究的重要目标。本文对PDF文档进行分析,主要介绍PDF文档的物理结构与逻辑结构、PDF文档的攻击技术及恶意PDF文档的传播途径。深入分析现有基于N-gram的恶意PDF文档静态检测模型,存在两点不足:第一,忽略了PDF文档中隐藏信息对提取的JavaScript代码完整程度的影响以及对提取出来的JavaScript代码预处理不足;第二,N-gram特征提取方法只能提取到固定长度的N-gram特征,导致有效特征被分隔开。论文针对上述问题提出了一种改进的N-gram恶意PDF文档静态检测模型,设计一个PDF文档预处理流程,包括解密处理、解码处理、JavaScript定位与提取和JavaScript去混淆处理,确保提取的JavaScript代码完整及有效;在现有N-gram特征提取方法基础上进行改进,确保提取到更有效的N-gram特征向量。为了验证改进的N-gram特征提取方法的有效性,使用改进前后的N-gram特征提取方法进行特征提取,将提取到的特征向量作为数据输入部分,使用多种检测算法进行训练与测试得到检测结果,同时将检测算法结合Boosting算法进行训练与测试得到检测结果。通过检测结果,验证了本文提出的改进的N-gram特征提取方法对恶意PDF文档检测有效,并且比对改进前的N-gram特征提取方法,取得更优的检测效果,同时结合Boosting算法可以提升检测模型的检测性能,与DPScan模型、PJScan模型相比较检测性能更好。