论文部分内容阅读
随着web2.0时代的来临,B/S架构的web应用以其灵活性、易用性和跨平台性等优点而被越来越多的人们所熟悉,随之而来的恶意网页攻击也逐渐成为网络信息安全的主要威胁之一。有效进行恶意网页检测,尤其是对新出现的恶意网页样本能够及时识别和检测,是当前web安全检测领域研究的重要内容。调研国内外专家学者在恶意网页检测领域的研究动态和主要技术手段,分析现有的基于特征匹配的恶意网页检测技术虽然可以快速准确地检测出已知类型的恶意网页,但存在对混淆变形后的恶意网页无法识别且对于新出现的恶意网页也很难有效分辨的问题。针对这一问题,本文提出了在基于恶意网页特征匹配的基础上使用分类学习算法对未知类型的网页进行分类预测的恶意网页检测方案。本文选择出网页源码中24个能够有效分辨恶意网页的属性特征作为训练分类器的特征向量,分别使用朴素贝叶斯算法、决策树C4.5算法、分类回归树算法和支持向量机四种分类算法在采集的恶意网页样本集上进行分类实验比较,并选择对恶意网页具有高识别准确率的支持向量机算法作为我们恶意网页检测方案的分类算法。由于恶意网页的形式不断增加和更新,标准支持向量机算法很难对新出现的恶意网页样本进行正确识别,所以我们使用具有增量学习能力的自适应支持向量机算法在当前分类器的基础上定期对新采集的恶意网页样本进行特征学习,并更新分类器对新恶意网页样本的识别能力。在上述工作的基础上,本文设计并实现了基于分类算法的恶意网页检测系统(CA-MWDS).系统首先使用知识库中的链接地址黑/白名单和恶意代码特征库,检测出已知类型的网页暗链、恶意链接和恶意代码。然后对于第一步检测中不能判断是否恶意的网页源码,使用基于当前恶意网页样本集训练生成的SVM分类器进行网页类别预测。对新出现的恶意网页样本,系统使用自适应支持向量机算法对当前分类器进行自适应学习,使更新后的分类器能够有效识别新的恶意网页。最后,本文通过实验测试了CA-MWDS系统对恶意网页检测的效率和性能,实验结果表明该系统在恶意网页检测中具有高准确率和低误报率,同时具有自适应学习能力,能准确检测新出现的恶意网页。但是同成熟的商业反病毒软件相比,系统具有较大的时间开销,如何在保证对恶意网页高检出率和准确率的前提下有效降低系统开销是我们后期进行系统优化的重要方面。