论文部分内容阅读
随着网络不断发展,越来越多用户通过网络办理各种事务。然而浏览恶意网页使得用户隐私数据遭到泄露,用户通常不能正确判定网页安全性。由于目前已有恶意网页检测技术还不成熟,对恶意网页检测技术的研究具有重要意义。本文通过对网页特征进行分析,提出了四类用于检测恶意网页的新特征,包括:URL词汇信息特征、主机信息特征、页面内容特征和混淆JavaScript特征。另外,本文针对所选取的各类特征提出相应的提取方式。通过分析混淆脚本代码特征的特点和已有特征提取方式的不足,本文对脚本引擎Rhino进行了扩展,使其能够有效解析包含DOM对象和Ajax的脚本代码。本文提出基于特征融合的恶意网页静态检测方案,分别利用支持向量机算法、决策树算法、朴素贝叶斯算法和逻辑回归模型建立分类模型,并且对四种分类模型检测结果进行对比。根据实验结果论证得出,融合特征比单一特征对恶意网页检测准确率更高。通过综合分析分类算法检测结果,本文选择支持向量机模型作为静态检测模块的核心。本文设计并且实现一种新的恶意网页检测方法。本方法综合运用静态检测技术和动态判定技术,首先,使用基于特征融合的静态检测技术对网页进行检测,其次,若为恶意网页则利用Capture-HPC进行动态检测。静态检测技术和动态检测技术的综合运用使得本系统同时具有二者优点:高检测效率、高准确率。为了验证本文提出的网页特征选择和提取技术的有效性,通过实验对比分析本文提出的基于特征融合的静态检测模块和三个典型静态检测系统检测结果。最后分别从准确率、误报率和漏报率三个方面将系统检测结果与三种杀毒软件检测结果进行对比。本系统检测准确率达到92.5%,并且误报率和漏报率较低,实验论证了本文提出方案有效性。