基于决策树和最佳特征选择的神经网络钓鱼网站检测研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:liongliong513
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着不断发展的Web、移动设备和社交网络技术,网络钓鱼已成为在线网络上日益严重的威胁。钓鱼攻击者使用社会工程技术,像电子邮件,SMS等引诱用户访问它们,窃取访问者的用户名、账户密码和金融相关的敏感信息,从而给受害者造成严重的经济损失。因此,迫切需要用于检测和防止网络钓鱼攻击的有效方法和技术。传统的钓鱼网站检测方法主要专注网络钓鱼的基本机制,忽略了新兴的攻击技术,目标环境和最新出现的钓鱼网站。由于可以从海量数据集中进行主动学习,而且数据分类的准确性很高,因此神经网络通常用于检测和预防网络钓鱼攻击。但是,在训练神经网络的过程中,公共数据集中的许多噪声点(例如重复的数据点和具有负或无用特征的数据点)将使神经网络分类器陷入过度拟合的问题。此问题通常导致训练有素的分类器无法精确检测网络钓鱼网站。为了缓解这些问题,本文提出了一种基于决策树和最佳特征选择的神经网络网络钓鱼检测模型——DT-ANN。在该模型中,首先对传统的K-medoids聚类算法进行了改进,以从公共数据集中删除重复的样本点。然后,设计了基于新定义的特征评估指标(f_Value),决策树和局部搜索的最佳特征选择算法,以修剪出负面和无用的特征。通过这样做,减轻了训练神经网络分类器的过程中的过度拟合问题。最后,通过调整参数,特征选择的最佳敏感特征集合和训练神经网络分类器的最佳结构。实验结果表明,提出的DT-ANN具有比许多现有方法更高的性能。本文主要工作如下:(1)使用改进的K-medoids聚类算法来完善网络钓鱼数据集。在基于机器学习的网络钓鱼检测系统中,公共数据集通常用于训练基础分类器,然后再用于测试或检测网络钓鱼攻击。但是,许多公共数据集通常充斥着噪声点或重复点。这些点将降低分类器的性能,甚至使它们陷入过度拟合的问题。本文基于欧氏距离,通过增量选择聚类中心(medoids)而不是随机选择聚类中心来改进传统的K-medoids聚类算法。通过改进的K-medoids聚类算法,生成了可以很好地表示原始数据集的精炼训练实例集。(2)提出新的特征评估指数(f_Value)。在许多基于机器学习的网络钓鱼检测系统中,可以表示目标URL及其相关网站的敏感功能被提取出来,以训练基础分类器。实际上,不同的功能对分类器的性能有不同的影响。积极的功能将提高分类器的性能。但是,无用的负面特征将严重降低最终分类器的检测精度。为了评估不同特征对网络钓鱼检测的影响,本文提出了一种新的特征评估指标f_Value。新的f_Value索引是基于基尼系数和决策树定义的。(3)设计一种新的特征选择算法。一般而言,足够多的特征以及选择最佳特征的方法是机器学习分类器性能良好的主要原因。但是,过多的功能会扩大规模并带来最终分类器的复杂计算。此外,收集的特征可能包含对分类器的性能有害的无用的负面特征。本文设计了一种新的最佳特征选择算法,该算法基于新定义的f_Value索引,决策树和局部搜索为基础分类器选择最佳特征集。
其他文献
本文以引汉济渭岭北施工区隧洞开挖为工程背景,通过微震监测系统的建立和微震监测技术对开挖过程的实时连续在线监测和分析,研究分析岩爆发生的前兆信息。通过研究表明:岩爆
中国银监会发布的《银行业金融机构国别风险管理指引》明确要求下一步将严格对金融机构国别风险进行监管,加上近几年国际上接连发生的国别风险事件,我国建立商业银行国别风险
21世纪是海洋的世纪,海洋将成为人类生存与发展的新空间。水下无线传感器网络(Underwater Wireless Sensor Networks,UWSNs)中目标跟踪作为大范围水域持续监测的重要手段已成
青铜器是我国古代物质文化遗产中重要的有机组成部分,数目巨大。随着近代考古学的传入,学者们对青铜器的研究逐渐摆脱了传统金石学的束缚,形成了以考古学方法为基础的新研究,
近年来,随着消费市场对河鲀热捧,食用河鲀渐成风尚,也让河鲀养殖的规模悄然形成。$$河鲀产业前景看好$$我省养殖的河鲀以双斑东方鲀和菊黄东方鲀为主。早在2000年,在出口市场的带
报纸
编者按$$建设是发展,保护也是发展。$$上海作为国家历史文化名城,自1843年开埠以来,全国乃至世界各地文化在此交汇交融,积淀起深厚的人文底蕴,形成了海纳百川、大气谦和的城市精神
报纸
透过对世界种业第一大国美国种业发展历程的分析,了解其种业由萌芽、成长、快速成长及走向成熟阶段的历史进程,总结了其种业发展经验,以期为相关人员提供参考。
涉税信息是税务部门执行税收征管的基础依据,能够全面、快捷、准确地取得涉税信息是推进税收管理现代化的必要条件,而全面推进税收管理现代化是国家治理体系和治理能力现代化建设的重要组成部分。长期以来受制于思想认知、法律制度、管理手段等多方面因素,税务部门取得纳税人涉税信息的方式局限且落后,双方之间存在着严重的信息不对称情形。近年来,随着社会的变革和经济的急速发展,税源的隐蔽性和复杂性日益增强,信息不对称情
目的:探究分析人性化护理对癌症患者的护理效果。方法:2016 年6 月-2018 年6 月收治癌症患者90 例,分为两组,各5 例。观察组采用人性化护理,对照组采用常规护理,对比分析两组
随着信息化不断深化发展,网络已经成为现代生活必不可或缺的一部分。如何利用网络中海量数据挖掘用户信息,提升用户体验和工作效率,成为学界与工业界的关注热点。但遗憾的是,