Web漏洞扫描系统中的智能爬虫技术研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:ywyyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对Web安全问题,目前最常用的技术是采用Web漏洞扫描系统进行检测。网络爬虫是Web漏洞扫描器重要组成部分,负责抓取站点的页面信息,为Web漏洞扫描器提供数据源及扫描入口。网络爬虫是一个智能抓取网页的程序,论文主要研究网络爬虫技术。所做的主要工作包括以下几部分:1)介绍了网络爬虫及其采用的爬行策略,论述了通用爬虫、聚集爬虫、深层爬虫三种典型网络爬虫技术,详述了聚集爬虫使用的几个重要网页分析算法,分析了已有的基于爬虫技术的Web漏洞扫描系统。2)通过对扫描对象特点的分析,提出了一种基于属性标签的Web数据挖掘的算法。即利用网页的所有标签,构造带有属性标签的DOM树;通过属性标签对子树做比较,发现标签序列的重复模式;制定了三个规则排出干扰模式,找到数据区域,用向量记录包含有用数据的重复模式;通过向量提取出数据记录。验证该方法有效性的实验对象是卓越网各类目,从实验的数据可以发现,该方法可以卓越网页中提取出大约90%的数据,正确率与覆盖率都很高。3)基于属性标签的Web数据挖掘的方法可以挖掘很多网页的重复数据,但对重复模式只具备相似性不具备一致性的网页不起作用。针对这个问题,提出了一种基于编辑距离的Web数据挖掘算法。把树编辑距离转化为字符串编辑距离的计算,利用字符串编辑距离评价树的相似度,进而找到网页中的重复模式,提取数据。通过针对不同重复模式特征的网页的实验说明,该算法不仅能挖掘具有特征一的网页的数据,也能挖掘具有特征二的网页的数据,能把20个百度贴吧网页包含的1000个数据都提取出来。4)最后设计并实现了一个智能爬虫程序。详述了各个模块功能,绘制了各个模块的流程图。根据流程图用Java编程实现,并用实验证明模块达到预定的功能。该爬虫将论文提出的新算法运用于爬虫策略制定,能很好地从交互性强的站点如电子商务、贴吧、论坛等抓取出网页。
其他文献
煤矿环境复杂,数据采集困难,如何及时获取矿井信息并进行管理,在当今的信息时代尤为重要,因此建立完善的煤矿信息管理系统势在必行。3G通信技术的高传输速率、覆盖广和高可靠性的
超分辨率重建是采用软件方法对图像或者视频进行一系列的分析处理,提高图像或视频分辨率的一种数字图像处理技术。利用超分辨率重建技术能够在不升级现有采集设备的情况下,提
当今社会,随着科学技术飞速发展,能源的短缺成为了受到社会广泛关注的热门话题。风能、太阳能等可再生的新能源得到了广泛的应用。于是,如何将太阳能转化成电能并进行存储和并网发电成为了光伏发电领域所要解决的问题。文章首先介绍了国内外光伏发电的历史背景、发展前景,并且给出了光伏逆变并网发电的标准;其次,对逆变并网发电所依据的基本理论,即锁相环和PWM原理做出了介绍;再次,又对三相光伏并网逆变器所采用的核心技
LTE-Advanced是下一代移动通信技术IMT-Advanced (IMT-Advanced:International Mobile Telecommunication-Advanced)的候选技术方案,LTE-Advanced使用了许多全新的技术,例如载波
随着移动智能终端的大量普及以及用户业务多样化的发展,网络中的数据流量呈现爆发式增长的趋势,而且这种增长趋势在未来几十年中可能会继续保持,这将导致现在大量部署的4G网
目标跟踪是机器视觉领域的前沿研究课题,其本质是在图像序列中通过递推估计来确定感兴趣的具有某种显著特征(如纹理、颜色、运动、形状等)的目标位置。随着图像处理技术的快
无线传感器网络融合了无线通信技术、传感技术、分布式计算技术及网络互联技术等多种技术,提供了新的数据采集方式,开拓了通信网络中物物互联的全新业务。时间同步对于无线传感