支持Ajax技术的Deep Web网络爬虫模型研究

被引量 : 13次 | 上传用户:XPTRY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
快速增长的网络信息资源已经成为一个巨大的信息宝藏。实际上通用搜索引擎仅能检索到整个网络资源的一小部分信息(称之为Surface Web),而大部分更有价值的信息资源却不能够被通用搜索引擎检索,这些不能被检索到的信息就称为Deep Web。对Deep Web中信息获取的研究已经越来越受到人们的关注。在Deep Web中,有相当一部分内容因为以动态网页的形式存在而不能被有效抓取。究其原因是,目前很多网站通过动态脚本的方式与用户进行交互,特别是以Ajax为代表的技术在网站开发中得到了广泛应用。Ajax技术改变了传统的基于静态页面的网站架构,在提高用户体验度的同时,由于其特性如JavaScript事件执行、状态识别与切换等,导致使用Ajax技术的网站及其后台服务器资源无法被通用网络爬虫抓取,成为了不同于Surface Web的Deep Web资源。针对如何获取这类使用Ajax技术的网站信息的问题研究将变得越来越重要,因此,实现此类信息的获取成为了本文工作的出发点。本文的主要研究内容如下:(1)研究了通用网络爬虫的体系结构、工作原理,重点分析其抓取Ajax网页所面临的JavaScript执行、状态识别与切换等问题。基于以上研究,本文提出了一种基于状态仓库的Deep Web网络爬虫(即AjaxFetcher)的体系结构及其基本算法。(2)该爬虫通过加入嵌入式浏览器的功能,可以模拟执行页面中的JavaScript事件,接受服务器端的异步响应,通过分析页面DOM结构的变化识别新生成的状态,逐步生成Ajax网站的状态仓库,该状态仓库呈现出了Ajax网站的结构及其各个页面状态信息。(3)由于在Ajax分页抓取中对同一个函数的每次调用都将导致同样的服务器端响应,本文将包含Ajax请求的JavaScript函数标记为热点,通过缓存数据响应策略的方法改进上述基本算法,从而减少与服务器端通信所带来的性能损耗。最后本论文通过设计对比实验来验证提出的新型网络爬虫的有效性,实验结果表明利用该爬虫能够从Ajax页面更多的获取后台Deep Web资源。
其他文献
高空抛物案件在高楼林立的现代社会呈频发状态,其导致的严重伤害让其不再仅仅是一个社会道德问题,而上升成为不可回避的法律问题。由于没有明确的法律对高空抛物行为进行规制
目的 对颅内外血管架桥术治疗缺血性脑血管病的疗效进行再评价。 方法 对30例经正规内科治疗后仍有颈内动脉系统缺血症状的患者,进行了颞浅动脉-大脑中动脉吻合术,并对术后患
中学英语到底教不教语法,怎样教语法以调和英语交际能力和语言准确性之间的关系,这是个长久以来就很具有争议性的课题。《全日制义务教育普通高级中学英语课程标准(实验稿)》
钠-葡萄糖共转运蛋白2抑制剂(SGLT2i)是一种新型口服降糖药物,其作用机制是抑制肾小管近端钠-葡萄糖重吸收,促进尿糖排泄,从而降低血糖浓度。目前,国内外临床研究积累了大量S
<正>重庆各中小学暑期推行"我的作业我做主"个性化假期学习计划,动员和组织学生走进军营、走进社区、走进工厂、志愿者活动等多种形式的实践活动。同时严禁学校组织学生假期
手机阅读正成为阅读的新潮流,大学生在手机读者中所占比例较高,作为该群体的信息服务机构,高校图书馆有必要顺应形势研究和开展手机阅读服务,这需要对大学生读者的手机阅读行
<正>金属活动性顺序既是规律性知识,又是必备的工具性知识.金属活动性顺序的考查一直是各种化学命题、测试的重点与难点.不少人在学习、理解、应用相关知识解决问题时常有失
<正>"绿色、自然、环保、生态"是当今社会发展的一大主题,《幼儿园教育指导纲要》明确指出:要培养幼儿热爱大自然的情感,引导幼儿主动关心周围的环境及事物,养成保护环境的良
识字是小学低年级的教学重点和难点,是提高学生阅读和习作能力的基础。新课标十分重视激发学生做学习的主人,其关键在于培养学生的学习兴趣,让其在游戏中学、情境中学,不断进
目的:探讨儿童肾病综合征(肾炎型)血浆von Willebrand因子(vWF),D-二聚体(D-Dimer,DD)和血小板数量变化及其在高凝状态中的相互关系.方法:用酶联免疫吸附试验(ELISA)双抗体夹