论文部分内容阅读
计算机与网络己经被应用到了人们生活的方方面面,网络安全越来越受到人们的重视。2014年2月,中国中央网络安全和信息化领导小组成立,标志着网络安全提升到国家战略高度。网页后门(Webshell)是当前网络安全面临的主要威胁之一。由于经济利益的驱使和各种新技术的应用,网络后门数量巨大。与此同时,各种类型的网络后门层出不穷,导致安全威胁指数逐年上升。Webshell检测通过检测出网站中的后门文件,从而进行网站安全管理。现有的Webshell检测方法主要基于特征函数提取,检测率不高。本文致力于对Webshell检测的关键技术进行研究,对现有的Webshell检测方法进行了深入研究,同时借鉴和吸收关于自然语言处理的相关研究,将Webshell的可执行文件转化为词向量形式使其向量化,根据文件向量,对Webshell及其变种的检测方法进行深入的探讨,本文的主要工作和贡献可以归纳为:1.在统计特征提取和特征函数提取的基础上,分析并研究了三种可行方法进行Webshell检测,分别是基于决策树、极端梯度提升树和BP神经网络的检测方法,通过实验验证了三种检测方法。综合来看,这三种基于特征函数和机器学习的检测方法由于特征选择的限制性,存在不同的缺点,分类性能不够好。2.针对Webshell检测这一情景的数据预处理算法进行了分析和深入研究,提出一种新的分词方法。其基本思路是提出通过空格和非数字和字母的特殊字符进行分词,从而既保留词向量含义,词库量也比较小,克服了通过空格进行分词词库量很大耗内存、部分出现频率低的词通过向量填充,失去其具体含义等缺点。3.提出了一种基于卷积神经网络的检测模型,通过对样本进行学习,实现分类。在模型中,利用Word2vec对样本进行向量化后,利用卷积神经网络对样本进行训练和检测。通过实验验证了该模型具有较高的检测率,具有较好的检测效果。4.提出了一种基于注意机制的网壳检测模型。在模型中,我们主要关注行内词关联。我们利用Word2vec对样本向量化,利用GRU和注意力机制对样本进行训练和检测。通过实验了验证该模型具有较高的检测率,具有较好检测效果。5.相对于传统的基于特征提取的检测算法只针对某一种Webshell脚本语言,同时检测多种语言的Webshell时效果较差,本文实现了同时检测多种语言Webshell,且效果较好。