基于Scrapy技术的数据采集系统的设计与实现

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:LIGUOQIANG630
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对互联网的信息极其庞大并且经常更新的情况,该文基于Scrapy爬虫框架设计并实现了优良的数据采集系统。它不仅可以根据用户自身需求获取数据,还可以对自身的采集任务进行简单的管理。介绍了系统开发的关键技术,探讨了系统框架设计、功能模块和数据库设计方案。使用Django MTV模式进行开发,底层数据采集框架使用Scrapy,一种使用Python编写实现的网站数据异步爬虫应用框架,网页解析采用xpath和python正则相结合的方法,采用jQuery树插件zTree实现了任务的树形管理,使用bootstrap实现了数据的任务名加关键字组合查询和页面效果。系统主要分为六大功能模块,网页解析模块,数据处理模块,系统登录模块,任务新建模块,任务管理模块和数据查询模块。最后分析了浏览器端和服务器端的数据交互的实现,以及网页数据定位和解析的实现。
其他文献
本文阐述了云计算的内涵,分析了云计算为图书馆带来的优势,探讨了云计算视域下图书馆编目工作的发展趋势。认为,云计算技术给图书馆的联合编目建设提供了技术和设备支持,图书馆应
文章阐述了对高职职业素养培养的认识,分析了高职酒店管理专业职业素养培养的现状和问题,提出了构建高职"双主体"职业素养培养的专业实践教学模式:在学校和酒店共同合作组建职业
互联网营造了良好的公民参与政治的文化氛围,提高了民主意识,开辟了参与政治的便捷途径。但由于网络政治参与存在非平等化、非制度化、非理性化等问题,不可避免地对我国当代
本文针对当前轻化工程专业研究生培养方面存在的工艺、装备和自动化相脱节、学与用相脱节的现象,以陕科大制浆造纸工程专业为试点进行一系列改革,提出了以实践为导向的轻化工
本文在分析高校图书馆用户需求的基础上,提出了高校图书馆新型信息服务模式的构建途径。要转变思想,提高服务质量;进行科学化管理;开发网络信息资源,始终为用户提供优质的服
海关总署目前发布的数据显示,2012年,我国出口文化产品217.3亿美元,较上年增长16.3%。
目的:循证研究评价穴位按摩和太极拳对老人认知功能的影响,为实证研究提供参考依据;实证研究中医综合护理干预对社区轻度认知损害(mild cognitive impairment,MCI)老人的疗效
在水利工程中,柴油发电系统是整个水利工程发生故障时的被动电力系统保障,但是目前的柴油发电机大部分技术还存在一定的问题,导致其不能满足水利工程突发状况对供电发电的需
定义了4种参战实体和7种链接,并以复杂网络理论为基础构建了卫星信息支援下的联合作战网络拓扑结构。通过对网络结构中作战环的定义以及相关模型的建立,对各类卫星信息对于作
本文阐述了档案管理的基本内容和提高档案管理科学化水平的基本内涵,提出了提高档案管理科学化水平的路径。要转变思想观念;创新管理方式;建设现代化、信息化的管理系统;提高档案