基于JavaScript的交互式动态URL提取的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:kensenwey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网的应用已经渗透到人们生活的各个角落,信息量更是以爆炸式的速度在膨胀,如何快速有效地提取有用信息成为一个巨大的挑战。搜索引擎能够帮助人们快速定位到对自己有用的信息,网络爬虫是搜索引擎的基础,同时也是安全扫描程序的必需模块。网络爬虫爬行的条件是能自动发现网页中的URL信息,因此,完善的页面解析算法可以更好的提高爬虫的网页覆盖率。目前,大多数网络爬虫采用页面静态分析算法,利用页面A标签和正则表达式匹配来获取页面中URL信息,然而,近些年随Web开发技术的发展,很多网站采用动态URL技术,普通的爬虫对此无能为力,造成越来越多的网络爬虫陷阱。   本文首先介绍了网络爬虫在动态URL解析方面的研究情况和相关理论,总结和分析了动态URL信息在网页中的存在形式,以及其形成的必然原因。然后,通过对浏览器原理的深入研究,基于JavaScript解析引擎实现了隐藏URL信息的获取引擎,解决了目前网络爬虫在解析JavaScript脚本动态生成URL链接方面的网络暗角,并提出了一种改进方案,采用占位符提取动态URL模板,提高了传统的自动填表多次提交表单方案的效率和完备性问题。   本文设计实现了一个可供传统网络爬虫通用的交互式动态URL获取引擎模块。该模块基于浏览器运行原理,模拟浏览器加载网页页面,提取加载后的HTMLDOM代码,并模拟用户交互式操作,获取Web应用与用户交互过程中产生的动态URL信息;最后为了集成到传统网络爬虫中,本文还设计了基于多线程网络爬虫的高效接口模块。   本文从引擎的设计思路、结构、运行机制、交互式事件模拟以及具体实现等方面进行了详细的阐述。   最后,为了能够更好的验证本模块在网络爬虫中的实际应用价值,本文还将引擎集成到了开源爬虫中进行测试。试验结果表明,本文的方法可以有效的提取HTML页面中隐含在JS脚本中的URL信息,满足传统爬虫所要求的性能,具有一定的实用价值。
其他文献
近年来,随着语音识别技术不断地发展,语音识别系统已开始从PC机逐步走向嵌入式平台。然而当嵌入式语音识别系统应用到真实的操作环境中时,由于训练环境和识别环境的不匹配,导致其
目标跟踪技术是计算机视觉领域中的热门课题之一,目前该技术已广泛应用于民用、军用和工程等各个领域,本文主要研究基于EMD(Earth Movers Distance)的目标跟踪算法研究与实现。
入侵检测是网络安全的主动防御工具,当检测到入侵行为时,要求响应单元尽可能快速响应处理,并记录其特征,以便于以后的检测。由于发生的入侵行为大多具有相关性,故入侵行为的
图像分割的目的就是把图像分成具有不同特征的区域,并通过一定的方法把人们感兴趣的内容提取出来的过程,在医学图像的分析、计算机视觉、图像编码等很多领域也已得到了实际的
石油作为工业发展的血液,不仅是动力燃料的来源,其提炼物更是深入到我们生活的方方面面。随着开采深度的加深,钻井难度的加大,要求螺杆钻具性能更高,螺杆钻具设计的好坏影响
互联网的兴起,用户爆炸性的增长,新的威胁和攻击不断出现,对网络的安全提出了新的挑战,尤其是海量数据、噪声处理以及在线学习问题,网络安全问题逐渐成为亟待解决的首要问题
随着信息技术的迅速发展,人机交互技术的不断普及,说话人识别(SpeakerRecognition,SR)以其独特的方便性、经济性和安全性等优势受到了越来越多人的关注,在信息安全等领域的应用也
学位
随着计算机科学技术的迅速发展,非结构化的高维数据大量涌现。高维数据不仅难以被人们直观理解,而且难以被现有的机器学习和数据挖掘算法有效地处理。如何有效地利用这些海量
Ad hoc网络具有快速组网、系统抗毁性强、不需要架设网络基础设施等优点,在军事、抢险、救灾等领域得到了广泛应用。Ad hoc网络存在网络传输有效性和能量有效性的折中问题。拓