基于代价敏感学习的恶意网页检测研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:yilongzhanyuye1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,人们逐渐面临各式各样的网络安全问题,而恶意URL(Uniform Resource Locator)作为Web攻击的媒介,渐渐威胁着用户的信息安全。传统的恶意网页检测手段如黑名单检测、签名匹配方法正逐步暴露缺陷,且恶意网页的检测工作面临以下挑战:特征覆盖不足以及特征选取复杂,恶意URL分词及上下文信息等特征的丢失,实际检测环境中正常恶意类别样本分布不均衡。因此针对以上挑战,本文利用深度学习思想并引入代价敏感学习,对恶意网页进行检测。本文的主要研究内容及创新点如下:(1)本文将HTTP(Hyper Text Transfer Protocol)请求参数结合URL信息作为原始数据样本进行特征提取,并进行了相应的数据处理工作,解决了单纯URL数据过于简单而造成特征提取困难的问题。同时已有的工作均通过分析直接选择不同的编码方式进行数字向量化表示,而本文通过实验对比了三种编码处理方式,根据实验结果选取了最佳字符编码的处理方式,保证了后续检测模型的效果,且验证了HTTP请求参数的结合对于恶意网页检测的可行性。(2)设计并构建了基于卷积神经网络和双向长短期记忆网络的检测模型。针对URL字符输入的特点,设计了适合URL检测的卷积神经网络模型,为了提取数据深层特征,使用了两层卷积层进行特征提取,并设计不同尺寸的组合卷积窗口进行局部特征提取,通过实验对比选取了组合卷积窗口的最佳方式。其次本文在池化层选择使用双向长短期记忆神经网络提取数据的时序特征,同时将该网络的最后一个单元输出达到池化效果。多数研究提取时序特征均采用通过全连接层组合神经网络模型的方式,相比之下本文的研究方法既有效提取了数据的上下文信息,又避免了大量的模型计算,保证了模型的检测效率。(3)设计并构建了基于代价敏感策略的神经网络模型。在实际应用中的恶意网页数量往往远小于正常网页的数量,常规的方法使用理想数据集进行模型训练,其最终检测效果可能存在假阳的现象。因此本文在深度学习网络模型中引入了代价敏感策略,为数据样本在迭代过程中分配不同惩罚因子,改进了数据样本初始化权重的分配规则并进行了归一化处理,增加恶意样本在整体误差函数中的比重,使模型更加关注困难学习样本。最终通过实验证明改进后的检测模型能够较好的处理数据不均衡的问题,使模型更具泛化性和可扩展性。
其他文献
学位
随着无线传感器网络(Wireless Sensor Networks,WSNs)、5G通信技术、大数据处理技术以及人工智能技术的快速发展,物联网(Internet of thing,IoT)广泛地应用于人类生产生活的各个方面。由于目前IoT设备存在着各种各样的漏洞,导致IoT网络面临着形形色色的恶意攻击和通信过程中的隐私泄露等严峻的安全问题。与Internet相比,IoT具有大规模的设备、多源异构
认知无线电技术打破了目前频谱使用固定分配方案的局限性,允许次级用户自适应调整传输参数以利用空闲的频谱资源进行数据传输,大大提高了频谱利用率。得益于对海量通信数据的学习和推理能力,人工智能和机器学习方法能够动态地调整系统的传输协议,以适应复杂的通信和网络环境,代表了未来通信的发展方向。因此利用机器学习解决认知无线电中的问题成为了当下的研究热点。本文对强化学习在频谱感知以及频谱接入中的应用进行了深入的
目前,地铁明挖车站的修建方法多为在基坑内现浇结构,此法受施工环境影响较大,且施工速度慢,对城市环境影响较大。近年来,一种配备榫槽注浆式接头的全预制拼装地铁车站结构被提出,并在长春地铁建设中使用,有效解决了上述问题。此前,多位学者已经对榫槽注浆式接头构件的静力学性能进行了系统的理论及实验研究,但对该接头构件动力性能的研究还非常有限。基于此背景,本文以榫槽注浆式预制拼装地铁车站结构为研究对象,从该接头
在对城市地下空间的开发使用中,大量地铁车站不可避免地修建在地层复杂的场地之中,当场地中存在较大性质差异的软硬不均的地层时,车站受力形式复杂,目前对非均匀地层中地铁车站的地震响应有一些研究,但有关这种非均匀性对车站内力、变形,特别是破坏影响的了解还相对不足。本文通过数值模拟分析,探讨软硬不均匀地层中地铁车站的地震响应特性和破坏模式。主要工作和成果如下:(1)针对不同地层组合的软硬不均匀场地,参考实际
学位
作为后续步态和行为识别的基础工作,行人的轨迹与骨架信息提取一直是计算机视觉领域的重要热点话题。近年来视频监控在人流追踪、疫情安检等公共场合下发挥了重大作用,然而监控场景下的信息提取精度以及智能处理水平还有待提高,传统的跟踪与骨架提取算法普遍受到差异化的监控环境与监测噪声的影响。围绕着这一难题,本文基于视频监控场景对行人跟踪与骨架提取算法进行研究。本文所做的研究工作主要如下:1.为了解决基本的颜色粒
随着城市规模不断扩大和人口激增,地铁建设已成为城市发展的重要方向之一。盾构机是目前最先进的隧道掘进设备,有效改善了施工人员的作业环境,具有机械化程度高、安全可靠等优点,在地下工程施工中广泛使用。盘形滚刀因其优秀的破岩性能,被广泛地用作盾构和TBM的破岩刀具。然而,在实际工程中,滚刀磨损是盾构施工最常见的损耗之一,严重影响施工效率。本论文属于科技部“973”课题“复杂条件大直径盾构长距离安全掘进理论
近年来,我国高速铁路飞速发展,保证列车在运营过程中的安全和稳定显得尤为重要。轴箱轴承作为高速列车走行部上的关键部件,其性能的正常与否直接关系到列车运行的安全与稳定。当前我国高速列车主要通过车载轴温检测系统监测轴箱轴承的运行状态,并基于固定的轴温阈值报警,但是该系统存在漏报率和误报率高的问题,并且该系统在历史运行过程中采集到的大量数据没有得到充分利用。针对以上问题,本文分析了高速列车轴箱轴承的温升机
在全球化背景下,出境旅游一直是社会各界讨论的热点话题之一,然而人们较多关注出境旅游带来的积极影响,却忽略了旅游业本身的脆弱性。出境旅游易受突发公共卫生事件和自然灾害等危机事件的影响。2020年初爆发的新冠肺炎疫情使全球旅游业的发展一度陷入停滞状态,出境旅游人数也大幅缩减,因此研究新冠疫情影响下旅客的出境旅游行为,对旅游地政府部门制定相关政策刺激出游具有重要意义。本文的主要研究内容如下:首先,结合国