基于正样本和单分类算法的恶意PDF文档检测技术研究

来源 :军事科学院 | 被引量 : 0次 | 上传用户:yuantao22222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
PDF文档具有跨多平台性、格式一致性、不可编辑性等特点,广泛应用于信息发布、学术交流和日常业务,但其格式灵活,可以嵌入恶意代码;同时,PDF阅读器已被发现大量漏洞,且仍在不断曝出新的高危漏洞。PDF文档已成为黑客实施攻击的载体,利用恶意PDF文档进行钓鱼攻击是APT组织的重要手段,有效检测恶意PDF文档对发现网络攻击、提高网络安全防护能力具有重要意义。常规杀毒软件大多通过签名和启发式规则对恶意PDF文档进行查杀,但检测规则简单且具有滞后性,难以发现未知恶意PDF文档。目前,利用人工智能技术的恶意PDF文档检测模型主要是根据已出现的恶意PDF文档特征进行构建,检测模型准确率虽然已经较高,但泛化能力较低,对未知恶意PDF文档检测能力不足。本文对恶意PDF文档检测问题进行了系统研究,提出了基于正样本和单分类算法的恶意PDF文档检测方法,主要工作如下:(1)较为全面地梳理总结了当前恶意PDF文档检测的相关研究。对PDF文档安全问题进行了深入剖析,分析了PDF文档成为恶意代码宿主的内在原因;对恶意PDF文档检测中特征选择、特征获取、检测算法等进行了分析总结,详细对比分析了各种技术的优缺点;系统总结了恶意PDF文档检测对抗攻击和提升检测模型鲁棒性的方法,为构建基于正样本和单分类算法的恶意PDF文档检测模型的特征及算法选择提供了依据。(2)提出了基于正样本结构特征和稀疏自编码器的恶意PDF文档检测方法。根据PDF文档结构特点,设计了结构特征提取算法和编码方式,实现了结构特征的有效表示;选择使用稀疏自编码器算法进行恶意PDF文档检测,并设计了相应的网络结构。经实验验证,稀疏自编码器模型的结果优于单分类支持向量机、孤立森林、普通自编码器等模型;与使用恶意样本进行训练的检测模型相比,本方法具有较高的检测率,对已知恶意PDF文档检测率达到99.03%,对未知恶意PDF文档检测率达到95.99%。(3)提出了基于正样本Java Script特征和单分类支持向量机的恶意PDF文档检测方法。通过使用Java Script代码语义级别的特征和恶意关联特征构成组合特征,使特征选择更具有针对性;使用单分类支持向量机算法实现对包含Java Script代码的恶意PDF文档的检测,并设计了鲁棒性验证方法。经实验验证,本方法使用恶意关联特征能够提高检测模型鲁棒性,攻击样本规避率下降了7.68%;在保证了对已知恶意PDF文档的检测率的前提下,提高了对未知恶意PDF文档的检测率,对已知恶意PDF文档检测率为96.93%,对未知恶意PDF文档检测率为96.91%。(4)提出了基于正样本和单分类算法的恶意PDF文档检测框架。针对使用单个PDF文档特征存在缺陷的问题,通过特征选择和单分类算法分析,综合使用PDF文档结构完整性检测、基于结构特征检测和基于Java Script特征检测三个模块实现了泛化能力强的恶意PDF文档检测方法。在特征使用方式方面,针对正常PDF文档中包含Java Script代码较少的实际,将Java Script特征和结构特征单独使用构建检测模块。经实验验证,本方法与现有方法和使用单特征的检测模型相比,检测能力得到进一步提升,对已知恶意PDF文档检测率为99.25%,对未知恶意PDF文档检测率为98.48%。
其他文献
科学技术的发展与社会环境的变化带动了历史街区研究内容与方式的不断创新与进步。混合现实技术由于能够使物理对象和数字对象共存且包含沉浸式体验的特性,近年来被不断地应用于医疗、教育、设计等领域。随着城市更新运动的发展,历史街区功能逐渐退化,历史街区内公共空间的活力也随之衰退。本文结合混合现实及其相关数字化技术,基于实验者心理评价与视觉行为双重视角,探究混合现实环境下的苏南地区历史街区公共空间建成环境相关
学位
期刊
目的鲍曼不动杆菌是一种条件致病菌,为医疗带来极大的困扰。而多重耐药鲍曼就是医学上常说的“超级细菌”之一。由于传统的抗生素疗法针对耐药菌的效果有限,噬菌体治疗方案广受研究者关注。通过筛分能够高效裂解鲍曼的噬菌体,掌握重要属性并且分析相关的基因组信息,可以为噬菌体治疗鲍曼不动杆菌提供新的研究依据。方法通过噬菌斑法从污水样本里筛分能够有效裂解鲍曼不动杆菌的噬菌体;通过透射电镜观察噬菌体的头部和尾部形态;
学位
为了抑制电信诈骗案发率的进一步增长,以更有效地保护公众财产安全,维护社会安全与稳定,本文以H市的工作实践为例,通过研究目前电信诈骗反制预警实践中的工作流程,分析其主动性不足,责任落实难,实际效果差,工作人员行为与公众经常发生冲突、缺乏根治电信诈骗策略等问题,提出了树立积极主动的理念,坚持以人为本的工作方式,建立合理的考核机制,人工甄别与数据预警相结合,参与构建信任社会等优化路径。
期刊
<正>血液制品由健康人血浆或经特异免疫的人血浆,经分离、提纯或由重组DNA技术制成的血浆蛋白组分以及血液细胞有形成分统称为血液制品。血制品用于治疗和被动免疫预防。血制品行业区别一般制药行业的特殊性在于原材料稀缺,及绝大部分产品不能通过基因工程方法制造等。血浆供应只能来自于人体,存在资源稀缺性,且用于血液制品生产的血浆,只能由血制品企业控制的单采血浆站采集。全球血液制品行业高度集中,已形成寡头垄断格
期刊
针对人体图像识别技术在多场景多波段下识别系统复杂、运算量庞大的问题,文章提出了红外/可见光双适用识别算法,以精简识别算法系统、提高多场景多波段目标的识别速度和性能。首先,算法在目标提取阶段利用连通域评价法区分图像的环境和主体,以快速找到目标区域并排除较大的干扰因素;然后,在特征提取阶段通过分块遍历局部区域方法提取关键特征;最后,在目标分类阶段对关键特征进行判断并分类。实验结果表明,文章提出的图像识
期刊
报纸
与传统土壤栽培相比,有机基质栽培具有提高产量、优化品质、减少病虫害、节水节肥、省工节本等优点。目前最常使用、需求旺盛的有机基质泥炭属于天然不可再生资源,其形成需要特殊的湿地条件和漫长的过程。反之,农林废弃物价格低廉、材料普遍易得且理化性质稳定,可作为原料用于批量加工有机育苗基质。尾巨桉(Eucalyptus urophylla×E.grandis)为巨桉和尾叶桉的杂交种,原产于澳洲及大洋洲,常绿乔
学位
针对传统的配电网供电可靠性评估中存在的0.4 kV低压配电网分析不足、评估准确度低的问题,提出了一种基于层次分析的配电网供电可靠性评估方法。首先,电力线高速载波识别技术,识别0.4 kV配电网的用户和配电变压器关系,以提升配电网评估细粒度。其次,计及分布式能源,采用熵权法和层次分析法结合的方式建立配电网供电可靠性评估模型,通过评估矩阵综合分析配电网的可靠性。最后,以某地市的配电网为例,建立基于层次
期刊
低周热疲劳(温度冲击)是造成电子元器件失效的一个重要原因。为研究某型号PCB在热循环加载下封装焊点的疲劳寿命,针对典型的电子封装结构,建立简化的PCB有限元模型。参考GJB 150.5A-2009温度循环试验加载标准,运用锡钎基的Anand统一本构模型表征焊点结构在高温下的力学行为。利用ANSYS完成结构的热循环分析,并基于Darveaux模型预测封装结构在温度循环加载下的疲劳寿命。分析结果表明,
期刊