一种多源统一爬虫框架的设计与实现

来源 :软件工程 | 被引量 : 0次 | 上传用户:maruijun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向深层网数据的爬虫技术与反爬虫技术之间的对抗随着网站技术、大数据、异步传输等技术的发展而呈现此消彼长的趋势。综合对比当前主流的爬虫和反爬虫技术,针对高效开发、快速爬取的需求,MUCrawler(多源统一爬虫框架)被设计成一种可以面向多个网站数据源,以统一的接口形式提供爬虫开发的Python框架。测试结果显示,该框架不但能够突破不同的反爬虫技术获取网站数据,在开发效率、鲁棒性和爬取效率等方面也体现出较好的运行效果。
其他文献
一、前言热壁加氢反应器筒体是加氢装置的心脏部位,筒体的母材多采用铬钼钢,内壁堆焊一层不锈钢.筒体内部工作介质是油气、氢气、硫化氢催化剂,在高温、高压下工作.因此对筒
本文对+β两相区成形的TA15钛合金环形锻件组织、性能进行了分析,结果表明:TA15钛合金在两相区成形可得到均匀的等轴α+β转变组织并具有良好的综合力学性能,因此β相变点以
党的十九届四中全会将全面从严治党作为党的建设的重要内容,这是中国共产党作为中国特色社会主义事业的坚强核心领导,具备创造力、战斗力和凝聚力的重要保障。党的十三大正式
用冷冻干燥法合成了包覆型粉体,与传统方法相比,无需以纳米或微米级核颗粒为前提,过程简单,成本低。以偏钨酸铵和硫酸铝为原料,经喷雾预冻、真空冷冻干燥获得W/Al混合盐冻干
通过采用虚功率增率型原理,建立了多点成形时具有材料、几何与非连续性接触边界条件三重非线性的有限元模型,给出了非连续动态接触边界及库仑摩擦边界条件的处理方法,引用经