基于Webmagic的动态网页爬虫的研究与优化

来源 :北京邮电大学 | 被引量 : 6次 | 上传用户:lau_lfm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网页数量的爆炸性增长,传统集中式的爬虫很难满足实际应用。另外,Ajax技术在网络应用中的广泛普及,给传统的Web开发带来了一次全新的变革,通过局部刷新的功能提高了用户的体验度,用户能够很好的与远程服务器进行交互,典型的应用包括校园的BBS,博客网站等。这些大量动态网页的出现给传统的网络爬虫带来了很大的障碍。影响爬虫的效率的同时也影响网页内容的获取。针对上述的两个问题,本文以WebMagic爬虫框架为基础,设计了一种分布式的动态网页爬虫系统Dis-Dyn Crawler。系统采用SOA架构的思想,将动态网页解析工具HtmlUnit在动态页面过程中比较耗时的操作分离出来作为独立的服务;为了提高解析效率,系统将HtmlUnit所需要的JavaScript等文件缓存在Redis数据库中,在进行页面渲染时不用每次都从网络中下载,减少网络的请求,提高解析效率;异步页面下载器的实现使得系统的整体效率进一步提高。论文从功能和性能两个方面对Dis-Dyn Crawler系统进行实验分析。通过与现有分布式网络爬虫工具的抓取能力进行对比,验证本文基于Webmagic的动态网页爬虫是高效的。通过与现有的动态网页解析工具进行对比,验证本文的Dis-Dyn Crawler系统的高效性和可行性。
其他文献
<正> 目前,我国的酒精和酿酒工业主要是用淀粉类和糖类原料来发酵生产。在发酵法生产酒精和白酒的过程中,同时也产生大量的CO_2气体,当CO_2气体通过发酵料层,逸出料液界面时,
为了逐步增强大学生思想政治教育效果,可以积极探索将传统优秀文化融入到大学生思想政治教育实践中,促进思想政治教育质量的增强。本文从将传统优秀文化融入到大学生思想政治
<正> 方药组成及使用方法荆芥、防风、细辛、白芷各等份,共研细未,装瓶备用.使用时取川椒适量,煎水熏洗患处,继用陈醋调药未外敷.每日2次,3日为1疗程.治疗结果笔者共治疗24例
论述了目前国内应用最多的几种脉冲袋式除尘器的优点和不足,介绍了步进式长袋低脉冲袋式除尘器、步进式回转脉冲袋式除尘器的工作原理、关键技术的解决办法及关键零部件、元
本研究对502名青少年的社会支持与同伴接纳的关系进行了研究,结果表明,不同接纳水平的青少年在肯定与支持和满意度维度上存在着显著差异。其中,高接纳组从母亲、朋友和教师那
现阶段工业、农业的迅猛发展虽然推动我国经济水平呈现出不断提升的趋势,但是水源水质污染问题也愈发严重,严重危害到人们的安全健康。而在当前饮用水安全消毒处理过程中,传
资产是能以货币计量的各种经济资源的综合.国有资产是属于国家全民所有的资产.资产按实物形态可分为有形资产和无形资产.有形资产按其流动性又可分为固定资产和流动资产.本文
中国核工业集团公司是国资委管理的特大型国有独资军工企业,1999年7月在原中国核工业总公司的基础上改组成立。主要承担军用核动力、军用核材料,核电,核燃料、乏燃料和放射性废