论文部分内容阅读
互联网中充斥着大量的恶意网页,这些恶意网页在用户不知情的情况下非法窃取用户信息,对用户的网络安全造成威胁。分析并提取恶意网页特征是基于机器学习的恶意网页识别方法的研究重点。恶意网页在URL文本、网页内容等方面与良性网页存在客观的差异,通过特征工程提取这些特征并结合机器学习分类算法,可实现对恶意网页的识别。恶意网页生存期短且攻击手段多变,存在样本收集困难的问题;同时网页样本标注的工作量大,目前还没有权威的恶意网页训练集。因此研究网页样本扩充方法,对基于机器学习的恶意网页识别方法研究具有现实意义和一定的学术价值。本文主要研究内容如下:
(1)对现有恶意网页识别方案中使用的网页特征进行了归纳总结,按特征来源进行了分类介绍,对部分特征进行了改进并定义了特征值计算公式。实验结果显示,本文归纳总结的传统特征较为全面。对比单一类型特征训练的分类器,使用本文归纳的传统特征训练的恶意网页识别分类器,识别性能有一定的提升。
(2)设计了恶意网页文本向量特征,并基于传统特征与文本向量特征提出了一种基于融合特征的恶意网页识别方法。先从网页样本的HTML文档中抽取了部分关键文本,随后通过文本向量化等方式将其转换为特征向量,并以此作为网页样本的文本向量特征。实验表明,文本向量特征单独使用时效果不佳,但与传统网页内容特征相融合后,能够在一定程度上提升对恶意网页的识别效果。相比现有融合方案,本文提出的恶意网页识别方法在准确率和F1值上有较大优势。
(3)针对恶意网页样本收集困难、样本标注工作量大等问题,设计实现了一种专用于网页特征样本生成的生成对抗网络(WFS-GAN)。WFS-GAN以CGAN模型为基础,将网页的类别标签作为条件信息,在保留原有判别器的条件下加入了局部特征判别器,以控制生成样本对应类别特征数据细节部分的质量,并实现同时生成良性和恶意两类网页特征样本的功能。实验结果表明,WFS-GAN生成的网页特征样本,其质量优于CGAN网络与CVAE网络生成的样本。WFS-GAN生成样本在用于恶意网页识别分类器训练中,在召回率上比其他样本训练的分类器表现更佳。
(4)设计实现了一套恶意网页检测原型系统。该系统分为以下三个模块:融合特征提取模块,负责对网页进行特征提取;特征样本生成模块,负责使用WFS-GAN的生成器生成网页特征样本;恶意网页检测模块,使用扩充样本以及原始样本训练分类器,以此在仅有少量真实网页样本的条件下实现恶意网页的检测。测试结果显示,在使用合适数量的扩展样本条件下,该原型系统检测恶意网页的检测性能表现优异。
(1)对现有恶意网页识别方案中使用的网页特征进行了归纳总结,按特征来源进行了分类介绍,对部分特征进行了改进并定义了特征值计算公式。实验结果显示,本文归纳总结的传统特征较为全面。对比单一类型特征训练的分类器,使用本文归纳的传统特征训练的恶意网页识别分类器,识别性能有一定的提升。
(2)设计了恶意网页文本向量特征,并基于传统特征与文本向量特征提出了一种基于融合特征的恶意网页识别方法。先从网页样本的HTML文档中抽取了部分关键文本,随后通过文本向量化等方式将其转换为特征向量,并以此作为网页样本的文本向量特征。实验表明,文本向量特征单独使用时效果不佳,但与传统网页内容特征相融合后,能够在一定程度上提升对恶意网页的识别效果。相比现有融合方案,本文提出的恶意网页识别方法在准确率和F1值上有较大优势。
(3)针对恶意网页样本收集困难、样本标注工作量大等问题,设计实现了一种专用于网页特征样本生成的生成对抗网络(WFS-GAN)。WFS-GAN以CGAN模型为基础,将网页的类别标签作为条件信息,在保留原有判别器的条件下加入了局部特征判别器,以控制生成样本对应类别特征数据细节部分的质量,并实现同时生成良性和恶意两类网页特征样本的功能。实验结果表明,WFS-GAN生成的网页特征样本,其质量优于CGAN网络与CVAE网络生成的样本。WFS-GAN生成样本在用于恶意网页识别分类器训练中,在召回率上比其他样本训练的分类器表现更佳。
(4)设计实现了一套恶意网页检测原型系统。该系统分为以下三个模块:融合特征提取模块,负责对网页进行特征提取;特征样本生成模块,负责使用WFS-GAN的生成器生成网页特征样本;恶意网页检测模块,使用扩充样本以及原始样本训练分类器,以此在仅有少量真实网页样本的条件下实现恶意网页的检测。测试结果显示,在使用合适数量的扩展样本条件下,该原型系统检测恶意网页的检测性能表现优异。