支持AJAX的定址网络爬虫系统的研究与实现

来源 :北京邮电大学 | 被引量 : 10次 | 上传用户:zzz999z
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Web2.0的概念出现后,一种被称为RIA的具有高度互动性和丰富用户体验的网络应用程序出现了,如博客、微博等,而AJAX技术由于符合Web2.0时代的需求,被越来越多的运用在Web开发中。AJAX技术采用客户端JavaScript动态修改DOM结构,实现了网页的无缝化重构,提高了网页的互动性、速度以及可用性。但与此同时,它改变了传统的Web应用模型,打破了传统爬虫依赖于分析页面中超链接的爬行模式,使传统爬虫不能采集AJAX网页中的动态内容,这意味着大量有意义的数据无法通过搜索引擎检索。为了解决AJAX网站的动态数据采集问题,本文设计并实现了种支持AJAX的定址网络爬虫系统。首先,通过对传统网络爬虫的研究,分析得出了AJAX爬虫的技术难点,并从一个实际的AJAX网站出发,阐述了传统爬虫在爬行使用AJAX技术实现的网站时存在的关键问题以及研究应用场景;其次,介绍了研究的相关概念和问题模型,并设计了系统运行流程与系统架构;最后,通过对AJAX爬虫中关键问题的分析与设计,实现了一种支持AJAX的定址网络爬虫系统。系统将传统网络爬虫工作过程中的URL提取和下载网页两个功能分离开,使之成为两个独立的功能模块。通过URL抽取模块实现网站URL抽取,形成URL资源库。采用Webkit渲染引擎实现的浏览器来加载HTML网页并解析JavaScript代码,并结合脚本生成器生成的JavaScript翻页脚本,实现了从页面DOM表示中识别用于页面导航的页面元素,自动触发页面元素上的事件,生成并提取分页内容。爬虫系统只采集URL资源库中链接地址导向的网页信息,也就是说爬虫的爬行范围完全由URL资源库限定,是受控的,即为“定址”的网络爬虫。此外,利用三类(共六个)真实网站,对系统的查全率、准确度及性能进行了测试。实验结果表明,本系统的查全率达到了100%;在不翻页采集的情况下,平均抓取速率达到52.03kb/s,系统展现出很好的效能。研究表明,本系统能够准确抓取AJAX网站的动态内容,并对相似网页结构的目标网页进行分页数据采集,系统具有较高的灵活性与适用性,可用于建设垂直搜索,以及开源情报采集等。
其他文献
随着信息技术的飞速发展,特别是移动互联网、物联网等的发展,数据呈现出了爆发式增长,我们已经步入了海量数据的时代。传统的存储管理方式已经不再满足当前的存储现状,如何有
中国共产党自成立至今90余年的前进过程中,为新中国的成立、社会主义的建设与改革不断进取,做出了巨大的贡献。而中国共产党自身的建设问题,一直是中国共产党在发展过程中,十分
1948年,克劳德·香农具有划时代意义的论文《通信中的数学原理》[1]开启了信道编码这一领域。之后的几十年间,编码领域为了接近香农限提出了许多编码方式,但直到20世纪90年代
目的:本研究旨在观察利福昔明乳房注入剂对奶牛临床型乳房炎的预防效果。方法:选择非临床型乳房炎的泌乳末期健康奶牛共计75头,随机分成5组,每组15头:1个空白对照组,即健康不给
人类历史和人类文明是由男性与女性共同创造的,女性是社会发展和进步的推动者,同时还负有人类的繁衍特殊的使命。但是,在历史的发展过程中女性非但没能同男性一样同等的分享人类
改革开放以来,中国竞技体育水平的提升和国际地位的确立无不得益于基于运动项目特征基础之上的组织的变革与创新,业已形成的竞技优势项目组织形成了其鲜明的组织形态特征和运行
和顺是云南省腾冲县的一个传统侨乡,已有六百多年的历史。自明朝中期和顺人就已经开始向海外移民,向海外移民的历史悠久。在这六百多年里,和顺仍然保持着较为良好的生态状态,这体
IT与企业绩效的关系一直是学者们关注的热点。但是IT投资与企业绩效的关系至今仍未形成一致的结论。研究表明,行业因素是IT投资与企业绩效关系的重要影响因素,但很少有研究针
新课程改革背景下倡导“以学生为主体”的教育教学理念,而如何在教学实践中切实地发挥学生的主体性作用,教会学生学习,才是改革的出发点与最终落脚点。有意义接受学习理论是
由于工作稳定、社会地位高、福利待遇好等特点,国税系统公务员常被视为最炙手可热的职业之一。从近几年国税系统公务员招考的情况来看,一直热度不减,报考与录取的比例屡创新