基于GAN扩充样本的恶意网页识别技术研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:fwy825
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网中充斥着大量的恶意网页,这些恶意网页在用户不知情的情况下非法窃取用户信息,对用户的网络安全造成威胁。分析并提取恶意网页特征是基于机器学习的恶意网页识别方法的研究重点。恶意网页在URL文本、网页内容等方面与良性网页存在客观的差异,通过特征工程提取这些特征并结合机器学习分类算法,可实现对恶意网页的识别。恶意网页生存期短且攻击手段多变,存在样本收集困难的问题;同时网页样本标注的工作量大,目前还没有权威的恶意网页训练集。因此研究网页样本扩充方法,对基于机器学习的恶意网页识别方法研究具有现实意义和一定的学术价值。本文主要研究内容如下:
  (1)对现有恶意网页识别方案中使用的网页特征进行了归纳总结,按特征来源进行了分类介绍,对部分特征进行了改进并定义了特征值计算公式。实验结果显示,本文归纳总结的传统特征较为全面。对比单一类型特征训练的分类器,使用本文归纳的传统特征训练的恶意网页识别分类器,识别性能有一定的提升。
  (2)设计了恶意网页文本向量特征,并基于传统特征与文本向量特征提出了一种基于融合特征的恶意网页识别方法。先从网页样本的HTML文档中抽取了部分关键文本,随后通过文本向量化等方式将其转换为特征向量,并以此作为网页样本的文本向量特征。实验表明,文本向量特征单独使用时效果不佳,但与传统网页内容特征相融合后,能够在一定程度上提升对恶意网页的识别效果。相比现有融合方案,本文提出的恶意网页识别方法在准确率和F1值上有较大优势。
  (3)针对恶意网页样本收集困难、样本标注工作量大等问题,设计实现了一种专用于网页特征样本生成的生成对抗网络(WFS-GAN)。WFS-GAN以CGAN模型为基础,将网页的类别标签作为条件信息,在保留原有判别器的条件下加入了局部特征判别器,以控制生成样本对应类别特征数据细节部分的质量,并实现同时生成良性和恶意两类网页特征样本的功能。实验结果表明,WFS-GAN生成的网页特征样本,其质量优于CGAN网络与CVAE网络生成的样本。WFS-GAN生成样本在用于恶意网页识别分类器训练中,在召回率上比其他样本训练的分类器表现更佳。
  (4)设计实现了一套恶意网页检测原型系统。该系统分为以下三个模块:融合特征提取模块,负责对网页进行特征提取;特征样本生成模块,负责使用WFS-GAN的生成器生成网页特征样本;恶意网页检测模块,使用扩充样本以及原始样本训练分类器,以此在仅有少量真实网页样本的条件下实现恶意网页的检测。测试结果显示,在使用合适数量的扩展样本条件下,该原型系统检测恶意网页的检测性能表现优异。
其他文献
射频无线能量传输(Radio Frequency Wireless Energy Transfer,RF WET)技术为解决未来通信网络(如物联网)中能量短缺问题的核心技术之一,其核心思想是利用射频信号既可以传递信息又可以承载能量这一双重特性,通过从射频信号中获取能量,从而实现为能量受限节点无线供能。另外,为了满足通信网络的高频谱效率、高能量效率需求,各类高效的无线通信网络架构竞相涌现,如多天线通
有限势博弈作为一类特殊的博弈具有许多优良的性质,特别是纯纳什均衡的存在性和演化下纳什均衡的可达性这两个特性,使它备受青睐.势博弈在博弈理论中占据着非常重要的位置,尤其是在近几年发展的博弈控制论中,作为支付设计和学习规则设计这两个步骤的接口,在分布式系统的优化与控制问题中起着非常关键的作用.本文主要利用势博弈的静态和动态性质,借助矩阵的半张量积这一数学工具,一方面将设备系统等价转化为有限势博弈,从而
学位
浮游生物不仅为海洋哺乳动物和商业上重要的鱼类提供食物,而且通过提供一半的全球初级生产力和对生物地球化学循环做出重大贡献,在海洋生态系统的功能中发挥着根本作用。因此,海洋浮游生物群落结构的变化是一个值得关注的问题。生物上,通过观测海洋测量数据和实验现象发现浮游生物的群落结构受到多种因素的影响。数学建模是分析外在环境变化和内在生理变化对浮游生物生物量影响的一个重要理论方法。通过对浮游生物建立恰当的数学
离群点检测作为数据挖掘技术下的一个重要子项,被广泛应用于网络入侵检测、工业系统故障检测、智能家居系统及医疗诊断等领域。随着数据在规模和维度上的双重增长,如何在大规模多维数据集中准确高效地检测离群点成为一个非常关键且极具挑战性的课题。目前,常用的检测算法如孤立森林(Isolation Forest,iForest)、局部离群因子(Local Outlier Factor,LOF)等由于算法本身的局限
虚拟机迁移作为有效的管理手段被广泛应用于云数据中心,特别是动态迁移技术,其在硬件维护、负载均衡、服务器整合、能耗优化和跨站管理等方面发挥了极其重要的作用。而相关研究中大多都积极地致力于通过虚拟机整合来降低数据中心的能耗,忽略了保证用户服务质量的迁移因子,特别是用户访问虚拟机服务时的访问延迟。访问延迟是现代跨地理区域服务的云数据中心内衡量云服务质量的重要指标,会直接影响到云服务商的市场拓展。因此本文
差分隐私保护下的分类算法一直是信息安全领域中备受关注的研究方向,可以在保护数据隐私的情况下对数据进行分类预测,因此在推荐系统、运输信息保护等方面有着重要的应用。但是差分隐私带来隐私保护的同时会严重影响算法的分类预测效果。因此本文围绕差分隐私下的决策树算法和随机森林算法展开了研究,立足于保护数据隐私性的前提下,提高算法的分类准确率。首先,针对差分隐私决策树算法在低隐私预算下生成噪声量过大的问题,在决
学位
现代战术任务有着复杂的通信和计算需求,战术网络使用无线电台、便携式通信设备等,通过传输数据、控制命令,来完成数据收集、指挥控制等功能。随着战术网络复杂性的增加和联合作战的需求,传统的战术网络架构已难以满足需求,并饱受复杂的配置和过大的协议开销等问题。软件定义网络(SDN)作为一个新兴的,有广阔前景的思想,旨在对通信网络的架构和运行方式进行革命性的改变。但是针对资源及其管理都是分布式的战术网络,如何
随着互联网和多媒体技术的飞速发展,每天有海量的视频产生并上传到各大直播平台,如何让机器理解这类海量的多媒体内容,以此提升这些视频的智能分发效果及效率是各大直播平台面临的重要问题,视频分类是视觉理解技术中的重要组成部分,因此如何实现对视频进行精确且高效的分类是本文研究的主要内容。视频作为多媒体内容的重要组成部分,相比多媒体中的文本和音频等信息而言包含的内容更加丰富,因此本文主要以视频作为研究对象,使
学位
暴力场景检测对于网络信息净化、保护未成年人身心健康、自动视频监控等方向具有广阔的应用前景。视频和音频是媒体中主要信息,但除了视频中的暴力画面和音频中的暴力声音之外,类似愤怒或憎恨情绪的字幕出现往往伴随着暴力场景的发生。字幕文本中所包含的情绪也有很多值得参考的补充信息。尤其是在视频帧或音频帧缺失的情况下,字幕信息对于暴力场景检测有着十分重要的作用。本文对融合视听特征和字幕特征的暴力场景检测方法进行了
随着计算机和信息技术的快速发展,越来越多的用户将海量数据存放到云平台,享受云计算与深度学习技术带来的便利。然而存放于云平台上的数据涉及用户隐私,一旦遭到非法窃取,会给用户带来极大的损失和风险。针对这一问题,学者和专家们提出了基于同态加密的神经网络模型来完成云上的推理任务。用户利用同态加密技术对隐私数据完成加密并上传到云平台。云平台在不解密的前提下,对密文进行处理然后将结果以密文的形式发送给用户。然
学位