基于机器学习的URL安全检测技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:h762106005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网科技的不断前进,越来越多的网络应用实例发生在我们身边,互联网科技在辅助人们生活变的更好的同时,也为人们带来了新的危险。恶意URL带给人们的损害致使人们开始逐渐意识到,采取行动来对抗恶意URL攻击,降低恶意URL攻击给人们带来危害的可能性是极其重要的。黑名单过滤检测技术也就应运而生,但随着科技的逐渐发展,数据集逐渐变得庞大,简单的黑名单检测技术远远不能满足当前对恶意URL检测技术的需求。机器学习算法逐步的应用于恶意URL的检测技术研究中,但是各个研究者所构建的模型准确率均有差异,且研究者们一般选择使用单一的机器学习算法来构建检测模型,这必然会导致检测模型在某些条件下表现出较为不好的性能。本文主要对基于机器学习的恶意URL检测技术进行了研究,构建了一个多分类器共同作用的检测模型,最后使用构建的多分类器模型设计并实现了一个对实时数据流进行处理的恶意URL检测系统。本文中主要完成的工作内容包括:分多种渠道对所需的正负数据集进行收集,并对收集到的数据进行了数据均衡、疑似恶意单词替换数据清洗等预处理操作。结合恶意URL检测特征提取的现有研究成果,加入自定义的新特征项,构建了一种新的综合特征提取方案,并对TF-IDF特征提取方案与基于word2vec词向量特征提取方案进行了实现。构建多分类器检测模型,检测模型中的三个分类器分别是,基于综合特征提取的逻辑回归模型、基于TF-IDF特征提取的SVM模型、基于word2vec词向量特征提取的CNN网络模型。通过给三种模型分配不同的权重,实验并调整恶意URL判定的阈值,来提高多分类器共同作用检测模型的综合性能。使用所提出的多分类器检测模型构建了一个恶意URL检测系统。设计并实现了一个对实时数据流进行恶意URL检测的系统,并对其进行了测试与结果分析。测试结果中发现,利用所提出的多分类器检测模型方案构建的恶意URL检测系统,在测试集上表现出了较好的分类性能,在正确率、召回率、精确率、F1值、检测耗时上表现出了较好的综合性能。
其他文献
MicroRNAs(miRNAs)是一类长度约为22个核苷酸的RNA分子,它们通过与靶标mRNAs完全或不完全互补配对,进而导致靶标mRNA的降解或翻译的抑制。大量研究表明,它们在细胞增殖、分化
针对在大型铸件生产过程中存在制造周期长、尺寸精度低、加工余量大等问题,本文研究了无模铸造自适应铸型工艺,即通过建立铸件-铸型一体化模型,对模型进行预剖分与组装,根据
本文介绍了三种常用的大型汽轮发电机定子绕组端部固定方式,分别是绑扎式固定结构、压板式固定结构和灌注式固定结构。对每种固定方法进行了详细的工艺介绍,根据每种固定方式
2011年1月,国务院正式批复《全国水资源综合规划》(简称《规划》),建立水资源总体配置格局,确定各行业、各个省、自治区、直辖市到2030年的用水上限,为制订国家主要江河流域
通过对高速电机转子绕组端部固定环的受力分析给出计算方法,并对试样进行试验,验证计算的准确性,并提出试验所用的设备及试验方法,最终给出载荷应变曲线和载荷位移曲线来证明
本文主要举例论述不时引起网络躁动的新型语言形式,其实它以各种信息为内容,模仿经典或化用名人语录、甚至是网络发烧友自创的交流语言等等形式来表达自己观点和个性的一种现
燃料乙醇,因其具有清洁、环保以及可再生性等诸多优点,被公认为是最具发展前景的石油替代能源。木质纤维素(包括农作物秸秆、林业副产物以及城市垃圾等)是地球上分布最为广泛
“疫情就是命令,防控就是责任。”大年初一,党中央成立应对疫情工作领导小组,在中央政治局常务委员会领导下开展工作;关键时期,我省升格疫情防控工作领导小组,由省委书记任第一组长
期刊
异步水轮发电机有着运行稳定性高、可靠性强、重量较轻的优点。但是目前大型异步水轮发电机转子绕组端部固定还存在着一些不足,本文通过查阅相关的资料,对大型异步水轮发电机
红色文化是河北省所积淀的燕赵文化资源中的重要组成。如何在新时代下实现红色文化的落地转化,是如今的影视工作者所关注的重要课题。本文选择纪录片这一叙述形式,探讨燕赵红