论文部分内容阅读
面对招聘网站发布的海量招聘数据,为了利用技术手段从招聘网站采集招聘数据,本文基于Python语言设计爬虫采集技术并实现了面向猎聘、Boss、拉钩等招聘类网站的数据采集,完成了对全部招聘信息及其详情页面的数据爬取。本文采用Scrapy框架实现对定制网站内容的爬取,并采用图像识别技术解决了爬取过程中遇到的验证码问题,最终成功获取50000余条数据。