论文部分内容阅读
随着Web浏览器及其插件中大量漏洞的曝出以及攻击者技术手段的不断提高,通过诱使用户访问含有恶意代码或欺骗性内容网页的偷渡式下载(drive-by download)行为变得更加难以检测。偷渡式下载是近两年众多重大网络安全事件报道中常见的用户感染手段,其检测已经成为当前信息系统防护领域的研究热点之一。本文通过对偷渡式下载的行为过程和检测特征进行深入研究,提出基于机器学习算法的实时检测方法并实现了原型系统,主要工作及创新点如下: 第一,对偷渡式下载行为的网络行为特征与网页代码静态特征进行了深入分析,在常用5个的偷渡式下载行为的基础上提出5个新特征及其度量方法,能够克服原有特征对重定向方式、检测规避技术等方面区分的不足。在实际数据中对上述10个特征进行统计分析的结果表明,提出的特征均可对偷渡式下载行为与正常用户下载行为进行一定程度上的有效区分。 第二,通过抽象偷渡式下载行为过程,提出了基于HTTP重定向链的偷渡式下载行为特征描述方法,实现了HTTP重定向链的实时在线构建算法。本文提出的描述方法通过定义HTTP重定向链中的各种要素,成功实现了偷渡式下载行为特征到具体数据值之间的映射,使得具体特征数据可以被实时获取。 第三,设计并实现了基于机器学习的偷渡式下载行为检测系统。利用朴素贝叶斯、Logistic回归以及SVM等机器学习算法在数据集上进行训练,并将检测模型部署于实时入侵检测系统Bro,实现了偷渡式下载行为的实时检测并取得了较好的检测结果。