集成URL新特征的网络钓鱼检测机制研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:lxp3754
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的蓬勃发展,网络安全问题层出不穷。网络钓鱼是一种典型的在线欺诈行为,它以互联网为载体,通过伪装成信誉良好的合法网站欺骗用户以获得用户的敏感信息,被欺骗的用户会产生不同程度的个人信息泄漏,继而导致经济损失。如何快速准确的检测钓鱼网站成为Web信息安全研究热点。针对一些常用的URL特征不能有效的区分新钓鱼网站以及综合多类特征的钓鱼网站检测方法效率低下等不足,提出了一种较轻量的钓鱼网站分级检测机制。本文首先对URL特征进行了比较深入的研究,对爬取的两万多条URL样本进行统计分析,从URL词法、WHOIS信息两方面挖掘新的高区分度特征,通过特征选择方法构建了新URL特征组合。其中,对于钓鱼URL中普遍存在品牌名异常现象,提出了一种基于编辑距离的品牌名异常算法,并且通过广义后缀树构建了钓鱼网站可疑特征词汇集合。经过实验验证,新URL特征组合能较好的区分钓鱼网站。在此基础上提出了一种改进的决策树算法作为URL特征分类模型,该算法在决策树的分类过程中设定阈值判断分类结果的准确度,对于不能明确判定的可疑样本需要提取页面特征进行最终检测。相比URL特征,页面特征需要对网页内容进行分析,获取较为复杂。对于部分钓鱼网站的页面特征伪造行为,本文对常见的特征伪造方式进行总结,对页面特征进行去伪造处理,避免了伪造特征对分类结果的影响。由于页面特征维度较高,因此本文选用了对高维数据处理效果较好的支持向量机算法作为页面特征的分类模型,并使用遗传算法GA对SVM算法的参数进行了优化。本文提出的分级检测机制将钓鱼网站检测分为基于URL特征的识别检测和基于页面特征的识别检测两部分,只需对少量可疑样本提取页面特征,提高了检测效率。为了验证本文提出的特征组合的区分度和钓鱼网站分级检测机制的有效性,进行了多组实验,实验结果表明本文提出的方法提高了分类的准确性。
其他文献
无线传感器网络的节点能量非常有限,全部由自带电池供给难以更新,因此在路由设计时如何最大化地节省节点的能量以延长网络寿命是无线传感器网络发展亟待解决的关键技术和重要问
在经济全球化的背景下,选择合适的合作伙伴共同完成生产任务,是保证生产顺利进行和企业最终盈利的关键。合作伙伴的选择包括综合评价和优化组合两个主要环节。科学有效的综合
随着信息时代的来临以及互联网络的飞速普及,人们的生活习惯也随之发生了很大的变化,把更多的时间和精力从报纸刊物转向了网络媒体。网络媒体已经成为了人们获取信息的重要途
煤炭是我国能源的主体,我山西省矿产资源丰富,素有“煤矿之乡”之称,在全国的煤炭生产中煤储量中占有非常大的比例。在煤矿安全生产中,危害性最大的是瓦斯突出,因此对瓦斯突
随着自然语言和互联网的飞速发展,全球每天都有成千上万甚至上亿的各种新闻事件发布,而大部分是英文新闻,在汉语国家中也有大量的中文新闻公布,如何从这些大量英文新闻中快速的识
随着RFID技术的日渐成熟,应用范围越来越广,其安全和隐私问题也越来越受人们关注。目前RFID安全机制主要分为两类:一类是物理安全机制,另一类是设计安全认证协议。物理安全机
由于现实生活中很多实际问题的发生多为各学科相互作用的结果,如何处理交叉学科数据是业界的棘手问题。粗糙集理论作为一种新的软计算方法,它能有效的对不完备地、不精确、不
互联网的信息在过去几年爆炸式的快速增长,这种快速增长和Web的动态变化特性使得我们在Web上完成有效的信息获取变得十分重要。网络爬虫是一个自动程序,它能有条不紊地通过扫描
大脑可以接受外界的繁杂信息,对各种信息进行组织、加工、处理,完成整个思维过程,指导相关器官执行任务。探索人脑的组织结构与执行功能之间的关系,理解人脑的工作机制,对打
人脸识别作为生物识别技术的一种,具有无接触、安全和方便的特点。人脸识别技术广泛应用于人机交互、交易认证及安防等领域,一直是生物识别技术研究的热点。   近年来,随着移