基于大数据的欺诈URL识别

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:gdat86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络钓鱼(Phishing)或欺诈URL攻击是针对互联网终端用户的一种欺诈性攻击。攻击者通过伪装成电子通信中值得信赖的人或业务来收集用户敏感信息和个人隐私,如密码和信用卡信息等。针对现有反网络钓鱼解决方案存在的局限性,本文提出了一个基于大数据的欺诈URL识别方案,主要工作包括:第一,讨论了钓鱼网站的定义、工作原理、常见攻击手段及类型,对目前主流的欺诈URL检测技术做了综述。第二,提出了一个多特征欺诈URL检测算法,该算法不仅分析了URL特征和Web页面内容特征,更深入地分析了其表单提交响应等交互情况下的动态特征,之后将这些特征使用传统机器学习算法进行训练与测试,包括随机森林、逻辑回归和支持向量机。第三,提出了一个基于字符的循环神经网络欺诈URL检测算法,该算法的输入是经过预处理后的URL字符串,首先采用Word2Vec中的Skip-gram模型将URL中出现的所有字符转为词向量,并使用基于循环神经网络的双向LSTM模型完成对URL文本的编码,最后使用激活函数实现归一化,实现对URL的分类功能。第四,最终将上述研究成果应用于Spark MLlib和Keras框架中,实现了一个欺诈URL实时检测系统,该系统检测的平均吞吐量达到了1000条/分钟。经过由PhishTank和DMOZ构成的网站数据集对系统的测试,验证了该方法的可行性和有效性,使得欺诈URL检测系统的精确率达到了98%。
其他文献
汉英两种语言中有许多用来表示颜色的词语。但是由于汉英文化的差异。相同的颜色词可能会有不同的文化涵义。文章通过汉英颜色词的对比,探讨汉英文化上的差异。
"非典"对我国经济所形成的巨大冲击是改革开放以来最严重的一次,其造成的经济损失显而易见,从经济根源上分析,这种冲击在很大程度上是由信息不充分和公共物品的供给不足所导
针对高职《旅游市场营销》教学中存存的种种问题,结合该课程的的性质特点和培养目标,从课程教学内容、教学方法及考评体系三个方面进行了创新研究,旨在为今后旅游市场营销教
无线能量传输(Wireless Power Transfer,WPT)是一种将电能通过电磁波直接由源端传递至受电端的电能供给模式。它一改传统只能依靠电导体传输电能的供电方式,旨在消除连接到电
<正>鲁迅纪念馆成立于1951年,原址在山阴路大陆新村鲁迅故居西侧。1956年为纪念鲁迅诞辰75周年和逝世20周年,由中央文化部决定将鲁迅墓由沪西万国公基迁葬于当时的虹口公园(
会议
随着教堂和教众的数量增加,教堂音质越来越受到关注。音质性能作为教堂承办各种宗教活动的基础条件,影响了各种活动的顺利开展以及教众对教区教堂的归属感,因此教堂音质性能
泡菜是我国重要的传统发酵食品之一,其口感脆爽,营养丰富,是不可多得的益生食品。我国目前的泡菜生产大多采用自然发酵工艺,致使产品安全难以控制,产品稳定性差,制约了我国泡菜产业的做强做大。本文通过选育发酵性能和益生功能俱佳的优良泡菜发酵专用菌株,创制直投式乳酸菌发酵泡菜关键技术,可安全快速地生产出一款口感脆爽、风味独特的直投式乳酸菌发酵泡菜产品。研究的内容和结果如下:(1)优良泡菜发酵专用乳酸菌株的筛
随着移动无线通信网络的急速发展,移动终端用户数目的迅速增加,移动数据流量更是呈现出爆炸式的增长趋势,并且无线通信网络的业务需求和整体架构也都在发生巨大变化,这给无线
本文致力于从市场的角度出发,联系笔者多年的教学经验,从影视制作软件、教学内容和教学方法等方面谈谈中职影视制作课程的教学,希望能起到抛砖引玉的作用。
作为控制系统理论中的不可或缺的重要内容,线性多智能体系统的分布式优化问题受到很高的关注.该问题的解决主要是通过所获取个体与邻居之间交互的状态信息,设计一种控制协议,使得多个体的状态信息趋向于全局目标函数的最优解.但在实际操作时,全局目标函数难以获得,提出了基于分布式优化的控制算法,使得系统即使未知整体目标函数,也可以很好的达到控制目的实现最优.本硕士论文重点做了两部分工作.一部分是考虑了线性多智能