论文部分内容阅读
随着不断发展的Web、移动设备和社交网络技术,网络钓鱼已成为在线网络上日益严重的威胁。钓鱼攻击者使用社会工程技术,像电子邮件,SMS等引诱用户访问它们,窃取访问者的用户名、账户密码和金融相关的敏感信息,从而给受害者造成严重的经济损失。因此,迫切需要用于检测和防止网络钓鱼攻击的有效方法和技术。传统的钓鱼网站检测方法主要专注网络钓鱼的基本机制,忽略了新兴的攻击技术,目标环境和最新出现的钓鱼网站。由于可以从海量数据集中进行主动学习,而且数据分类的准确性很高,因此神经网络通常用于检测和预防网络钓鱼攻击。但是,在训练神经网络的过程中,公共数据集中的许多噪声点(例如重复的数据点和具有负或无用特征的数据点)将使神经网络分类器陷入过度拟合的问题。此问题通常导致训练有素的分类器无法精确检测网络钓鱼网站。为了缓解这些问题,本文提出了一种基于决策树和最佳特征选择的神经网络网络钓鱼检测模型——DT-ANN。在该模型中,首先对传统的K-medoids聚类算法进行了改进,以从公共数据集中删除重复的样本点。然后,设计了基于新定义的特征评估指标(f_Value),决策树和局部搜索的最佳特征选择算法,以修剪出负面和无用的特征。通过这样做,减轻了训练神经网络分类器的过程中的过度拟合问题。最后,通过调整参数,特征选择的最佳敏感特征集合和训练神经网络分类器的最佳结构。实验结果表明,提出的DT-ANN具有比许多现有方法更高的性能。本文主要工作如下:(1)使用改进的K-medoids聚类算法来完善网络钓鱼数据集。在基于机器学习的网络钓鱼检测系统中,公共数据集通常用于训练基础分类器,然后再用于测试或检测网络钓鱼攻击。但是,许多公共数据集通常充斥着噪声点或重复点。这些点将降低分类器的性能,甚至使它们陷入过度拟合的问题。本文基于欧氏距离,通过增量选择聚类中心(medoids)而不是随机选择聚类中心来改进传统的K-medoids聚类算法。通过改进的K-medoids聚类算法,生成了可以很好地表示原始数据集的精炼训练实例集。(2)提出新的特征评估指数(f_Value)。在许多基于机器学习的网络钓鱼检测系统中,可以表示目标URL及其相关网站的敏感功能被提取出来,以训练基础分类器。实际上,不同的功能对分类器的性能有不同的影响。积极的功能将提高分类器的性能。但是,无用的负面特征将严重降低最终分类器的检测精度。为了评估不同特征对网络钓鱼检测的影响,本文提出了一种新的特征评估指标f_Value。新的f_Value索引是基于基尼系数和决策树定义的。(3)设计一种新的特征选择算法。一般而言,足够多的特征以及选择最佳特征的方法是机器学习分类器性能良好的主要原因。但是,过多的功能会扩大规模并带来最终分类器的复杂计算。此外,收集的特征可能包含对分类器的性能有害的无用的负面特征。本文设计了一种新的最佳特征选择算法,该算法基于新定义的f_Value索引,决策树和局部搜索为基础分类器选择最佳特征集。