基于机器学习的Webshell检测研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:xchjzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机与网络己经被应用到了人们生活的方方面面,网络安全越来越受到人们的重视。2014年2月,中国中央网络安全和信息化领导小组成立,标志着网络安全提升到国家战略高度。网页后门(Webshell)是当前网络安全面临的主要威胁之一。由于经济利益的驱使和各种新技术的应用,网络后门数量巨大。与此同时,各种类型的网络后门层出不穷,导致安全威胁指数逐年上升。Webshell检测通过检测出网站中的后门文件,从而进行网站安全管理。现有的Webshell检测方法主要基于特征函数提取,检测率不高。本文致力于对Webshell检测的关键技术进行研究,对现有的Webshell检测方法进行了深入研究,同时借鉴和吸收关于自然语言处理的相关研究,将Webshell的可执行文件转化为词向量形式使其向量化,根据文件向量,对Webshell及其变种的检测方法进行深入的探讨,本文的主要工作和贡献可以归纳为:1.在统计特征提取和特征函数提取的基础上,分析并研究了三种可行方法进行Webshell检测,分别是基于决策树、极端梯度提升树和BP神经网络的检测方法,通过实验验证了三种检测方法。综合来看,这三种基于特征函数和机器学习的检测方法由于特征选择的限制性,存在不同的缺点,分类性能不够好。2.针对Webshell检测这一情景的数据预处理算法进行了分析和深入研究,提出一种新的分词方法。其基本思路是提出通过空格和非数字和字母的特殊字符进行分词,从而既保留词向量含义,词库量也比较小,克服了通过空格进行分词词库量很大耗内存、部分出现频率低的词通过向量填充,失去其具体含义等缺点。3.提出了一种基于卷积神经网络的检测模型,通过对样本进行学习,实现分类。在模型中,利用Word2vec对样本进行向量化后,利用卷积神经网络对样本进行训练和检测。通过实验验证了该模型具有较高的检测率,具有较好的检测效果。4.提出了一种基于注意机制的网壳检测模型。在模型中,我们主要关注行内词关联。我们利用Word2vec对样本向量化,利用GRU和注意力机制对样本进行训练和检测。通过实验了验证该模型具有较高的检测率,具有较好检测效果。5.相对于传统的基于特征提取的检测算法只针对某一种Webshell脚本语言,同时检测多种语言的Webshell时效果较差,本文实现了同时检测多种语言Webshell,且效果较好。
其他文献
近年来,随着科技、经济等的飞速发展与进步,人们对能源需求不断增加,因此化石能源的储量逐年降低,并日渐枯竭。且化石类能源燃烧的过程中会排放出大量的NO_x、SO_X、CO_2等有害气体,对我们的生存环境造成严重的影响。因此,对于新能源的开发已经迫在眉睫。直接甲醇燃料电池(DMFC)具有甲醇资源丰富、易于存储和运输、价格低廉、能量密度高、操作简便和零排放等优点,被认为是理想的化石类能源的替代品。DMF
为了尽量减少水驱井的干扰,最大限度提高三采的开发效果,从实践角度出发,选取了与聚驱水井共射层有效厚度、井位关系、注采关系类型、井距、连通方向数等5项影响因素为评价参
通过对再生HC-K加氢精制催化剂的实验评价,证明再生HC-K催化剂仍具有良好的精制功能和部分裂化功能,同时介绍了HC-K催化剂在镇海炼化公司加氢裂化装置上的工业应用情况,实现
对国内外乙烯生产能力和供需现状进行了分析,并对乙烯工业的发展趋势进行了预测,未来几年在世界经济强劲增长的情况下,预计2001年至2005年世界乙烯生产能力年增长率将达到4.5
目的提高临床医师抗菌药物使用的合理性,了解我院抗菌药物临床应用现状。方法按照统一的自制表格,抽查从6月第2w全院出院患者的病历中随机抽取30份,6月第2w手术科室出院患者
介绍了茂名石化乙烯工业公司聚丙烯装置改进生产的聚丙烯嵌段共聚专用料EPC30R-H的主要工艺控制参数、产品结构和性能。与原引进专利牌号EPC30R相比,新牌号产品的结构和性能得
由对苯二甲酸(PTA)废料酯化合成的聚 酯树脂再与重芳烃、锌粉、铁红、石墨及固化剂等制得防腐抗静电油罐涂料。该涂料具有酯 基和氨基甲酸酯结构,其中富含的锌粉对工业设备具
为提高油气放射性勘查的有效性和更广泛地推广应用,本文仅就勘查过程中的干扰因素,测量结果的推断解释、有利区的评价与准则,以及若干概念等问题进行了讨论。认为,在干旱区的
综合监控系统的联动功能可有效提高地铁的应急处理能力,减轻紧急情况下运营人员的工作压力,避免发生不必要的操作错误,降低劳动强度,是地铁安全保证的核心,同时也是提升运营