基于JavaScript的交互式动态URL提取的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户：kensenwey

【摘要】

：

万维网的应用已经渗透到人们生活的各个角落，信息量更是以爆炸式的速度在膨胀，如何快速有效地提取有用信息成为一个巨大的挑战。搜索引擎能够帮助人们快速定位到对自己有用的信

【作者】

：

周正吉

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2012年期

【关键词】

：

网络爬虫 JavaScript引擎 URL提取运行机制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

万维网的应用已经渗透到人们生活的各个角落，信息量更是以爆炸式的速度在膨胀，如何快速有效地提取有用信息成为一个巨大的挑战。搜索引擎能够帮助人们快速定位到对自己有用的信息，网络爬虫是搜索引擎的基础，同时也是安全扫描程序的必需模块。网络爬虫爬行的条件是能自动发现网页中的URL信息，因此，完善的页面解析算法可以更好的提高爬虫的网页覆盖率。目前，大多数网络爬虫采用页面静态分析算法，利用页面A标签和正则表达式匹配来获取页面中URL信息，然而，近些年随Web开发技术的发展，很多网站采用动态URL技术，普通的爬虫对此无能为力，造成越来越多的网络爬虫陷阱。　　本文首先介绍了网络爬虫在动态URL解析方面的研究情况和相关理论，总结和分析了动态URL信息在网页中的存在形式，以及其形成的必然原因。然后，通过对浏览器原理的深入研究，基于JavaScript解析引擎实现了隐藏URL信息的获取引擎，解决了目前网络爬虫在解析JavaScript脚本动态生成URL链接方面的网络暗角，并提出了一种改进方案，采用占位符提取动态URL模板，提高了传统的自动填表多次提交表单方案的效率和完备性问题。　　本文设计实现了一个可供传统网络爬虫通用的交互式动态URL获取引擎模块。该模块基于浏览器运行原理，模拟浏览器加载网页页面，提取加载后的HTMLDOM代码，并模拟用户交互式操作，获取Web应用与用户交互过程中产生的动态URL信息；最后为了集成到传统网络爬虫中，本文还设计了基于多线程网络爬虫的高效接口模块。　　本文从引擎的设计思路、结构、运行机制、交互式事件模拟以及具体实现等方面进行了详细的阐述。　　最后，为了能够更好的验证本模块在网络爬虫中的实际应用价值，本文还将引擎集成到了开源爬虫中进行测试。试验结果表明，本文的方法可以有效的提取HTML页面中隐含在JS脚本中的URL信息，满足传统爬虫所要求的性能，具有一定的实用价值。

其他文献

语音识别系统噪声鲁棒性算法研究

近年来，随着语音识别技术不断地发展，语音识别系统已开始从PC机逐步走向嵌入式平台。然而当嵌入式语音识别系统应用到真实的操作环境中时，由于训练环境和识别环境的不匹配，导致其

学位

语音识别噪声鲁棒性语音增强STCMVN算法

基于EMD的目标跟踪算法与实现

目标跟踪技术是计算机视觉领域中的热门课题之一，目前该技术已广泛应用于民用、军用和工程等各个领域，本文主要研究基于EMD(Earth Movers Distance)的目标跟踪算法研究与实现。

学位

目标跟踪算法EMD技术偏微分方程目标轮廓相似性变换仿射变换

加权关联规则在入侵检测中的研究与应用

入侵检测是网络安全的主动防御工具,当检测到入侵行为时,要求响应单元尽可能快速响应处理,并记录其特征,以便于以后的检测。由于发生的入侵行为大多具有相关性,故入侵行为的

学位

入侵检测加权关联规则MINWAL(0)算法WAFP算法

基于蚁群聚类的舌像分割方法研究

图像分割的目的就是把图像分成具有不同特征的区域,并通过一定的方法把人们感兴趣的内容提取出来的过程,在医学图像的分析、计算机视觉、图像编码等很多领域也已得到了实际的

学位

图像分割舌像蚁群聚类彩色

螺杆钻具的流固耦合计算和模态分析

石油作为工业发展的血液,不仅是动力燃料的来源,其提炼物更是深入到我们生活的方方面面。随着开采深度的加深,钻井难度的加大,要求螺杆钻具性能更高,螺杆钻具设计的好坏影响

学位

螺杆钻具试验台模态分析流固耦合计算

基于多类支持向量机的协同入侵检测

互联网的兴起,用户爆炸性的增长,新的威胁和攻击不断出现,对网络的安全提出了新的挑战,尤其是海量数据、噪声处理以及在线学习问题,网络安全问题逐渐成为亟待解决的首要问题

学位

入侵检测加权多类分类协同机制支持向量机

面向嵌入式系统的文本无关说话人识别技术研究

随着信息技术的迅速发展，人机交互技术的不断普及，说话人识别(SpeakerRecognition，SR)以其独特的方便性、经济性和安全性等优势受到了越来越多人的关注，在信息安全等领域的应用也

学位

嵌入式平台说话人识别文本无关支持向量机分类器融合

基于深度神经网络的医学图像超分辨重建

学位

基于流形学习的数据降维的研究

随着计算机科学技术的迅速发展,非结构化的高维数据大量涌现。高维数据不仅难以被人们直观理解,而且难以被现有的机器学习和数据挖掘算法有效地处理。如何有效地利用这些海量

学位

数据降维流形学习Nystrom方法

协作Ad hoc网络容量和能量有效的拓扑控制算法研究

Ad hoc网络具有快速组网、系统抗毁性强、不需要架设网络基础设施等优点，在军事、抢险、救灾等领域得到了广泛应用。Ad hoc网络存在网络传输有效性和能量有效性的折中问题。拓

学位

Ad hoc网络拓扑控制协作通信能量消耗网络容量网络生存期

基于JavaScript的交互式动态URL提取的研究

其他学术论文