支持Ajax技术的Deep Web网络爬虫模型研究

被引量 : 13次 | 上传用户：XPTRY

【摘要】

：

快速增长的网络信息资源已经成为一个巨大的信息宝藏。实际上通用搜索引擎仅能检索到整个网络资源的一小部分信息(称之为Surface Web),而大部分更有价值的信息资源却不能够被

【作者】

：

管翠花

【发表日期】

：

2011年01期

【关键词】

：

Ajax Deep Web 网络爬虫状态仓库嵌入式浏览器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

快速增长的网络信息资源已经成为一个巨大的信息宝藏。实际上通用搜索引擎仅能检索到整个网络资源的一小部分信息(称之为Surface Web),而大部分更有价值的信息资源却不能够被通用搜索引擎检索,这些不能被检索到的信息就称为Deep Web。对Deep Web中信息获取的研究已经越来越受到人们的关注。在Deep Web中,有相当一部分内容因为以动态网页的形式存在而不能被有效抓取。究其原因是,目前很多网站通过动态脚本的方式与用户进行交互,特别是以Ajax为代表的技术在网站开发中得到了广泛应用。Ajax技术改变了传统的基于静态页面的网站架构,在提高用户体验度的同时,由于其特性如JavaScript事件执行、状态识别与切换等,导致使用Ajax技术的网站及其后台服务器资源无法被通用网络爬虫抓取,成为了不同于Surface Web的Deep Web资源。针对如何获取这类使用Ajax技术的网站信息的问题研究将变得越来越重要,因此,实现此类信息的获取成为了本文工作的出发点。本文的主要研究内容如下：(1)研究了通用网络爬虫的体系结构、工作原理,重点分析其抓取Ajax网页所面临的JavaScript执行、状态识别与切换等问题。基于以上研究,本文提出了一种基于状态仓库的Deep Web网络爬虫(即AjaxFetcher)的体系结构及其基本算法。(2)该爬虫通过加入嵌入式浏览器的功能,可以模拟执行页面中的JavaScript事件,接受服务器端的异步响应,通过分析页面DOM结构的变化识别新生成的状态,逐步生成Ajax网站的状态仓库,该状态仓库呈现出了Ajax网站的结构及其各个页面状态信息。(3)由于在Ajax分页抓取中对同一个函数的每次调用都将导致同样的服务器端响应,本文将包含Ajax请求的JavaScript函数标记为热点,通过缓存数据响应策略的方法改进上述基本算法,从而减少与服务器端通信所带来的性能损耗。最后本论文通过设计对比实验来验证提出的新型网络爬虫的有效性,实验结果表明利用该爬虫能够从Ajax页面更多的获取后台Deep Web资源。

其他文献

高空抛物侵权责任研究

高空抛物案件在高楼林立的现代社会呈频发状态,其导致的严重伤害让其不再仅仅是一个社会道德问题,而上升成为不可回避的法律问题。由于没有明确的法律对高空抛物行为进行规制

学位

高空抛物侵权责任救济途径立法完善

颅内外血管架桥术治疗缺血性脑血管病疗效的再评价

目的对颅内外血管架桥术治疗缺血性脑血管病的疗效进行再评价。方法对30例经正规内科治疗后仍有颈内动脉系统缺血症状的患者,进行了颞浅动脉-大脑中动脉吻合术,并对术后患

期刊

脑血管重建术脑缺血颅内外血管架桥

高中英语任务型语法教学研究

中学英语到底教不教语法,怎样教语法以调和英语交际能力和语言准确性之间的关系,这是个长久以来就很具有争议性的课题。《全日制义务教育普通高级中学英语课程标准(实验稿)》

学位

高中英语任务型教学任务型语法教学

钠-葡萄糖共转运蛋白2抑制剂对2型糖尿病患者的心血管保护作用

钠-葡萄糖共转运蛋白2抑制剂(SGLT2i)是一种新型口服降糖药物,其作用机制是抑制肾小管近端钠-葡萄糖重吸收,促进尿糖排泄,从而降低血糖浓度。目前,国内外临床研究积累了大量S

期刊

2型糖尿病钠-葡萄糖共转运蛋白2抑制剂心血管疾病

重庆各中小学推行个性化假期学习严禁暑期补课

<正>重庆各中小学暑期推行"我的作业我做主"个性化假期学习计划,动员和组织学生走进军营、走进社区、走进工厂、志愿者活动等多种形式的实践活动。同时严禁学校组织学生假期

期刊

中小学书面作业

大学生手机阅读行为研究

手机阅读正成为阅读的新潮流,大学生在手机读者中所占比例较高,作为该群体的信息服务机构,高校图书馆有必要顺应形势研究和开展手机阅读服务,这需要对大学生读者的手机阅读行

学位

手机阅读行为阅读需求手机图书馆大学生

巧用金属活动性顺序速解题

<正>金属活动性顺序既是规律性知识,又是必备的工具性知识.金属活动性顺序的考查一直是各种化学命题、测试的重点与难点.不少人在学习、理解、应用相关知识解决问题时常有失

期刊

金属活动性顺序中考题稀硫酸相对原子质量金属活动性顺序表

创绿色校园育“绿色”孩子

<正>"绿色、自然、环保、生态"是当今社会发展的一大主题,《幼儿园教育指导纲要》明确指出:要培养幼儿热爱大自然的情感,引导幼儿主动关心周围的环境及事物,养成保护环境的良

期刊

幼儿园年龄特点昆山市环保意识大自然绿色校园一日生活环保活动一日活动废旧材料

借助信息技术实现快乐识字

识字是小学低年级的教学重点和难点,是提高学生阅读和习作能力的基础。新课标十分重视激发学生做学习的主人,其关键在于培养学生的学习兴趣,让其在游戏中学、情境中学,不断进

期刊

识字教学信息技术手段优化识字策略

儿童肾病综合征血浆vWF、D-二聚体、血小板及其在高凝状态中的关系

目的:探讨儿童肾病综合征(肾炎型)血浆von Willebrand因子(vWF),D-二聚体(D-Dimer,DD)和血小板数量变化及其在高凝状态中的相互关系.方法:用酶联免疫吸附试验(ELISA)双抗体夹

期刊

儿童肾病综合征vonWillebrand因子D-二聚体血小板

支持Ajax技术的Deep Web网络爬虫模型研究

其他学术论文