基于智能爬行算法的网络扫描技术研究及实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:elfer_hfut
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“互联网+”时代的到来,网络信息安全问题面临着越来越严峻的考验。如何确保网络信息安全,减少由漏洞造成的损失逐渐成为一个研究热点。解决网络信息安全问题迫在眉睫。针对上述问题,本文深入研究了网络扫描和Web爬虫技术。网络扫描技术包括主机存活扫描、端口扫描、操作系统指纹识别和漏洞扫描;并针对漏洞扫描提出了智能爬行算法,设计了一个基于智能爬行算法的网络安全扫描系统。主要工作和创新点如下:1.针对子域名收集方法存在遗漏的问题,采用了基于字典融合的子域名收集方法。该方法通过融合DNS服务商提供的字典、同类爆破工具字典、通用基础组合及常见中英文词组生成融合字典。测试结果表明,采用字典融合方法比第三方服务收集到的子域名同比增长13%,收集结果更广,可以有效减少目标暴露面。2.针对目前端口扫描存在功能与效率成反比的问题,采用了基于异步无状态端口扫描和Nmap相结合的方法。该方法利用异步无状态急速扫描方法,对目标资产进行全IP全端口快速扫描,再结合Nmap进行端口服务、操作系统类型及版本探测。测试结果表明,该方法比单独使用Nmap,提高了至少300倍的扫描效率,并保证了扫描的全面性。3.针对深度爬虫未考虑网页结构相似性,导致对相同表单重复检测的问题,提出了基于相似度的智能爬行算法。该算法分为三个阶段:第一阶段是基于Rabin指纹的URL去重。第二阶段是基于权重分配的页面相似度计算方法:将网页解析成DOM树,根据节点的位置、DOM树的深度以及深度相同的节点数量,平均分配权重给每个节点。第三阶段是采用聚合式层次聚类思想将具有相似结构的网页聚为一组并选取代表URL。利用该算法设计了智能爬虫,包括URL封装、HTTP发送请求、页面解析、URL去重、页面相似度和聚类等。实验结果表明,应用该算法的智能爬虫可有效去除93%以上的结构相似网页,减少大量相同表单的重复检测,提高扫描效率。4.针对系统复杂、难以管理的问题,该系统基于高内聚低耦合的设计原则,结合B/S三层架构,采用模块化、插件式的设计思想,降低了系统的复杂度,使系统方便扩展,易于管理。本系统在功能上分为三大模块:信息获取模块、操作系统模块、Web应用模块。信息获取模块又分为五个子模块:子域名收集、旁站收集、C段收集、端口和操作系统探测、弱口令,且网络用户可自定义扫描的深度和范围。
其他文献
自1965年L.A.Zadeh提出模糊集的概念以来,关于模糊系统的研究得到了迅猛的发展,模糊控制技术被广泛应用于工业控制与家电产品的制造中,并取得了令人瞩目的成功。模糊推理是模糊控
科技型中小企业与传统中小企业相比具有高成长性和高收益性等特点,在市场上具有较强的竞争力,是孕育高新技术的摇篮,也是我国国民经济和社会发展的活力之源。特别是在江苏省
在框架结构和剪力墙结构中,普通钢筋混凝土柱发挥着重要作用,因为柱同时承受竖向和水平荷载,这使柱受力和抗震机理比较复杂。从震后调查发现,普通钢筋混凝土柱在地震中破坏比
介绍夔门大桥大跨径斜拉桥成桥在恒载作用下索力测试和在汽车荷载作用下索力测试的主要内容和方法,并结合理论计算,对该桥梁结构的实测索力进行对比分析。结果表明索力分布合理
对于机械工业的作用.马克思曾经表述为生产的“骨骼系统和肌肉系统”。机械工业是国民经济的基础产业,改革开放尤其是进入新世纪以来.在中国工业化进程加快和国际产业转移加速的
我国的3G牌照即将发放,各大运营商都在紧锣密鼓地进行3G通信网络建设的准备工作。在3G通信标准中,3大主流标准WCDMA、cdma2000和TD-SCDMA都采用CDMA技术,和GSM移动通信系统相
期刊