基于mRMR-RF特征选择和XGBoost模型的钓鱼网站检测

来源 :计算机应用与软件 | 被引量 : 2次 | 上传用户:cshan225500
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大量冗余数据带来的钓鱼网站检测准确率不够、误判率较高等问题,提出一种基于最大相关最小冗余(mRMR)和随机森林(RF)相结合的特征选择方法(mRMR-RF),并利用极端梯度提升(XGBoost)算法构建钓鱼网站检测模型。利用mRMR和RF算法分别对特征进行排序;综合两种特征排序得出最终的排序结果,并根据实验得出的最佳特征数选出XGBoost模型所需的最优特征子集;使用最优特征子集对XGBoost分类模型进行训练。实验结果表明,该方法相比其他分类方法可以提高钓鱼网站检测的准确率,具有实际意义。
其他文献
数据挖掘技术是一种新的信息处理技术,其目的是从海量数据中抽取潜在的、有价值的数据规律或数据模型。在讨论目前高校学生管理中存在问题的基础上,简单介绍了数据挖掘技术。并
苏东坡《志林》有“措大吃饭”一文,讲两个穷酸的小公务员坐在一起,各自谈起将来的志向,一个说:“我平生不足的就是吃饭和睡觉,以后得志了,就要吃饱了就睡,睡醒了再吃。”另一个说:“我的志向和你不一样,当吃了又吃,吃了再吃,为了吃饭哪还顾得上去睡觉!”  现代人一成小官,就专门谋划着吃饭:一等官,送着吃;二等官,寻着吃;三等官,要着吃。哪怕是小小村官,也是常在酒楼饭店,没钱了卖了土地也去吃。除了吃饭,无
研究目的:MOOC作为一种新兴的大规模的公开的在线课程,是对高等教育理念和方法变革起促进作用的全新的教学模式。MOOC的出现促使运动生理学的教学模式得以深思,它为高校带来
随着互联网金融产业的不断发展,用户依托互联网平台进行个人贷款的人数在不断增加。由于互联网线上平台天然的不透明性,且国内对于个人征信信息系统的构建不够完善,有效预测
药露是用中药材经过蒸馏制取的纯净液体,或中药材加开水冲泡或煮沸后饮用,亦可冷藏后再饮用。盛夏时节,烈日炎炎,常会使人出现口渴、心烦、厌食、失眠等不适症状。这时若能选