论文部分内容阅读
随着互联网技术的蓬勃发展,网络安全问题层出不穷。网络钓鱼是一种典型的在线欺诈行为,它以互联网为载体,通过伪装成信誉良好的合法网站欺骗用户以获得用户的敏感信息,被欺骗的用户会产生不同程度的个人信息泄漏,继而导致经济损失。如何快速准确的检测钓鱼网站成为Web信息安全研究热点。针对一些常用的URL特征不能有效的区分新钓鱼网站以及综合多类特征的钓鱼网站检测方法效率低下等不足,提出了一种较轻量的钓鱼网站分级检测机制。本文首先对URL特征进行了比较深入的研究,对爬取的两万多条URL样本进行统计分析,从URL词法、WHOIS信息两方面挖掘新的高区分度特征,通过特征选择方法构建了新URL特征组合。其中,对于钓鱼URL中普遍存在品牌名异常现象,提出了一种基于编辑距离的品牌名异常算法,并且通过广义后缀树构建了钓鱼网站可疑特征词汇集合。经过实验验证,新URL特征组合能较好的区分钓鱼网站。在此基础上提出了一种改进的决策树算法作为URL特征分类模型,该算法在决策树的分类过程中设定阈值判断分类结果的准确度,对于不能明确判定的可疑样本需要提取页面特征进行最终检测。相比URL特征,页面特征需要对网页内容进行分析,获取较为复杂。对于部分钓鱼网站的页面特征伪造行为,本文对常见的特征伪造方式进行总结,对页面特征进行去伪造处理,避免了伪造特征对分类结果的影响。由于页面特征维度较高,因此本文选用了对高维数据处理效果较好的支持向量机算法作为页面特征的分类模型,并使用遗传算法GA对SVM算法的参数进行了优化。本文提出的分级检测机制将钓鱼网站检测分为基于URL特征的识别检测和基于页面特征的识别检测两部分,只需对少量可疑样本提取页面特征,提高了检测效率。为了验证本文提出的特征组合的区分度和钓鱼网站分级检测机制的有效性,进行了多组实验,实验结果表明本文提出的方法提高了分类的准确性。