论文部分内容阅读
随着互联网的发展、数据交换的频繁,信息交互之间的安全就变得尤为重要。钓鱼攻击手段由于其存活短、危害大的特点,已然成为增长速度最快的网络攻击方式。网络钓鱼攻击是一种利用社会工程学和技术欺骗来获取用户身份数据和金融账户数据的攻击手段。最常见的方式就是在网络上向用户发送伪造网站链接并诱惑用户点击,在用户没有授权的情况下监控和拦截用户的隐私信息,从而给用户带来巨大的经济损失。因此,建立一种快速检测和处理钓鱼网站的机制能够及时有效制止钓鱼攻击带来的危害。由于传统的钓鱼网站检测技术缺乏大规模数据集的主动学习能力,机器学习算法的自主提取特征已经成为主流检测技术。该检测方法的关键在于特征的构建和分类算法的选择。本文对检测钓鱼网站的相关特征进行深入研究。由于钓鱼网站的特征多种多样,人工提取的特征往往依赖于经验知识,这就或导致一些特征不能有效分辨出钓鱼网站,还会带来检测效率低下的问题。然而,这些无用的特征也会影响机器学习模型的训练效果,从而导致训练好的模型无法精确预测和检测钓鱼网站。机器学习算法模型在检测钓鱼网站也会表现出不同的效果,本文通过实验对比常用的机器学习模型的分类效果,选择更为高效的神经网络模型作为检测框架的算法模型。基于以上分析,本文在最优特征选择方法的基础上,提出了一种有效的神经网络检测模型OFS-NN(Optimal Feature Selection-Neural Network)来检测钓鱼网站。本文的主要工作如下:(1)在分析了当前存在的网络钓鱼技术的原理和现有的钓鱼网站检测模型优点和存在的缺陷的基础上,并通过对比各种机器学习检测模型,得出适合钓鱼网站的神经网络分类模型。神经网络模型具有高精度、较强的鲁棒性和对噪声数据有较强的容错能力。此外,神经网络模型能够模拟复杂的非线性关系和较好的学习能力,并可以预测出未知类型的钓鱼网站。(2)本文主要通过提取网站的URL信息、HTML信息和DNS等信息提取相应的敏感特征。但无用的特征会影响模型的检测效果和效率,针这一问题本文提出一个最优特征选择指标FVV(Feature Validity Value)剔除无用特征。在计算每个特征有效值的基础上,设置阈值以消除一些无用的特征来选择适合训练机器学习算法的最优特征集合。与Gain(信息增益)指标进行实验对比,所提出的指标有较好的特征选择能力。本文在FVV指标的基础上给出最优特征选择算法,提高了模型训练过程和检测过程的性能。(3)本文结合最优特征提取算法和神经网络算法,提出一个基于最优特征的神经网络钓鱼检测模型OFS-NN。本文通过选择最优特征集合,构建最优的神经网络分类器对钓鱼网站进行分类和预测。并且在对钓鱼网站检测时引入黑白名单机制提高检测效率。实验结果表明,所提出的OFS-NN模型为网络钓鱼网站的预测和检测提供了有效的解决方案。该模型具有较高的精度和强大的泛化能力,能够有效地识别出多种钓鱼网站类型。