基于Python网络爬虫和数据可视化技术的某招聘网站数据采集与分析

来源 :科技信息·学术版 | 被引量 : 0次 | 上传用户:cxb632552353
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着信息技术的深入发展和广泛应用,网络平台成为各类信息发布和收集的主要渠道。网络爬虫作为网络数据采集的重要技术手段,已广泛应用于各个领域。本文使用基于Selenium 技术的网络爬虫,从某招聘网站采集到北京、上海、深圳、南昌四个城市IT行业招聘信息,使用数据可视化技术进行分析研究,得出了一些有益的结论。本文采用的数据采集和可视化分析方法对于一般研究工作具有普遍的借鉴意义。
  一、相关技术
  1.网络爬虫
  网络爬虫是按一定规则自动抓取互联网信息的程序或脚本。在大数据时代,网络爬虫是进行数据收集的有效手段。目前网络爬虫一般使用Python语言调用Requests、BeatifulSoups、Selenium等类库实现。
  2.Selenium
  Selenium是一款开源的Web应用程序测试工具,可以在浏览器中模拟用户请求网页服务,很难被网站检测到,能有效规避各种反爬虫策略。
  3.SQLite数据库
  SQLite是一款轻型数据库,占用资源少,支持主流操作系统,支持ODBC接口。与一般数据库不同,SQLite引擎嵌入在程序中,整个数据库系统存储在单一文件中。在很多应用场景,它的处理速度优于MySQL、PostgreSQL等数据库。
  二、目标网站分析
  本文以某招聘网站为目标,通过观察法分析出网站页面间的逻辑关系。
  1.首页与登录页
  使用FireFox浏览器打开网站首页(https://www.zhaopin.com/),找到用户注册登录页面(https://passport.zhaopin.com/login)。注册后返回首页,选择用户名、密码方式登录。
  2.职位搜索页
  登录后,进入“职位搜索”页,可以输入关键词搜索职位,还可以选择不同的城市、职位类别、公司行业以及列表的页码等。本文选择自己关心的城市、行业和页码,发现随着选择的不同地址栏中链接的参数也会发生变化。比如城市选择南昌时jl=691,行业选择电子商务时in=100020000,页面选择第2页p=2,浏览器地址栏中的链接变为https://sou.zhaopin.com/?jl=691&in=100020000&p=3。
  3.职位详情页
  在职位搜索页列表中,可以看到职位名称、公司名称、工资待遇、岗位要求等基本信息。查看职位详细信息需要进入详情页。在职位搜索列表页,使用浏览器检查工具可以找到详情页的链接地址信息(https://jobs.zhaopin.com/后加一个无规律的html文件名)。
  在详情页中,右键点击详细信息进入“检查”菜单,可以找到职位描述等文字信息所在的页面元素。
  三、系统设计与实现
  根据对网站的分析,系统可分为页面解析、数据采集与存储、数据可视化分析三个模块。
  1.页面解析模块
  在这个模块中,主要实现网页加载和页面结构解析与元素定位。
  通过前文分析可知,我们需要加载和解析的页面主要是登录页、职位搜索页和职位详情页,相关页面的链接在分析中已经获取。我们可以使用browser = selenium.webdriver.Firefox()方法加载火狐浏览器的驱动程序,然后通过其browser.get(url)方法,获取链接url对应的页面。
  首先实现页面自动登录。通过browser.get(“https://passport.zhaopin.com/login”),获取登录页。在登录页的中,分别找到用户名、密码所在的位置点击鼠标右键,选择“检查”菜单;在检查页面中相应的页面元素上点击右键,复制XPath;将复制的XPath作为参数,通过 browser.find_elements_by_xpath(XPath)方法获取输入用户名、密码的网页元素,调用sendkeys()方法将用户名、密码分别传送给浏览器,模拟用户输入用户名和密码;再用同样的方法获取“登录”按钮所在的网页元素,调用click()方法模拟用户点击登录。登录时,如遇图片滑块验证,可手动操作(只需在爬虫开始运行时操作一次)。
  用同样的方法可以获取职位搜素列表页和职位详情页。
  2.数据采集与存储模块
  完成网页解析后,使用Selenium类库函数定位到需要的网页元素,访问其text属性即可获取相应的数据。通过这种方式可获取职位名称、公司名称、工资待遇、岗位职责、技能要求、详细描述等信息。
  在进行数据存储时,使用sqlite3.connect()方法獲取数据库连接,再调用其cursor().execute(sql)方法,执行相应的sql语句即可。
  程序执行时,容易被网页错误、数据库错误打断,影响数据采集效率。可将网页获取、数据库读写操作放在try...except语句中,对产生的异常进行处理;同时将try...except语句块放在循环语句中,循环重试若干次后如仍异常则记录错误并跳过当前页面,继续采集后续页面。
  3.可视化分析模块
  笔者发现,因网站限制,每个细分行业只能查询到34页共1020条招聘信息。北京、上海、深圳的实际数据超过了这个数量,不适合进行招聘职位的行业分布分析;南昌没有达到这个限额,不受影响。
  在工资收入方面,一般来说招聘信息中的下限值比较接近真实收入情况。
  根据上述特点,本文从四个城市的行业平均工资、招聘数量行业分布、职位平均工资三个方面,使用Python的matplotlib类库的数据可视化方法,分别以下列条形图、饼状图的形式进行展示。
  四、总结
  根据上述分析,可以得出以下结论:
  1.南昌IT行业总体工资水平和行业间差异低于北京、上海和深圳等一线城市。这与南昌社会经济情况是一致的。
  2.南昌IT行业中,企业服务和电子商务方向就业机会最多、工资水平较低。说明这两个方向发展成熟、运行平稳。
  3.一线城市在线医疗、人工智能方向收入较高,但在南昌工资优势不明显且招聘数量不多。说明南昌这两个方向发展较弱。
  4.在线教育方向城市间收入差距较小。说明教育是刚性需求,在一般城市在线教育行业同样有较好的发展机会。
其他文献
摘要:Cessna172的G1000系统用电子显示的方式代替了传统的机械/机电式仪表,简化了设备的安装,节省了仪表板的空间,并且提供了灵活多样的信息显示方式。它是使用大屏幕显示器向飞行员提供飞行仪表、位置、领航、通讯和识别信息的集成飞行控制系统。由于G1000系统由多个LRU (航线可更换组件) 互相交联组成,通常其中一个部件的故障会影响到其他部件的数据获取、计算及功用/显示,而在排故过程中需要依
期刊
摘要:多旋翼无人机的应用越来越广泛,为保障其正常飞行,需要对其进行定期的维护与保养。无人机维护与保养主要有日常维护保养、基础保养、常规保养和深度保养。维护期间主要对无人机本体、任务载荷设备和电池进行检查、升级、维护与保养等操作。  关键词:多旋翼;无人机;维护;保养  多旋翼无人机作为一种比较精密的电子机械设备,用途广泛,成本低,效率较高,生存能力强,机动性能好,使用方便。要想保证其正常飞行和使用
期刊
摘要:根据无人船测量系统在近岸地形测量中的应用,介绍M40多用途无人船在近岸段中的实际运用。阐述该系统原理和项目概况,总结无人船测深、数据处理方面的应用要点及得到的启示,为今后近岸地形测量工作积累经验。  关键词:无人船;近岸地形测量;智能导航;监测技术  水深地形测量[1]作为一项常规测量,其主要任务是测量江河、湖泊、水库、港湾和近海等水域的水底点平面位置和高程,绘制水下地形图,提供基础水下地形
期刊
摘要:由于城市化建设速度的不断加快,城市发展速度空前绝后,生态环境面临的压力越来越大,由于城市人口数量的成倍暴增、工业的迅速发展,造成环境污染问题日益严重,因此,相关部门必须要重视起环境保护工作,通过合理应用监测技术以及治理技术,从而降低污染问题的发生几率,减少城市发展中对生态环境造成的破坏,确保市民能够在健康、洁净、绿色、生态的环境下工作、学习与生活。  关键词:城市;环境污染;监测技术;治理技
期刊
摘要:作为电子设备的重要载体,PCB线路板的发展趋势朝向高密度、低成本、高可靠性方面发展,在体积方面也愈发追求轻薄、短小。基于此,对PCB线路板的生产活动精密度要求也越来越高,这在很大程度上对PCB线路板生产设备的研发与应用提出了高要求。本文主要内容从PCB线路板的应用发展趋势入手,探究了有关PCB线路板的生产设备研发及应用。  关键词:PCB线路板;生产设备;研发  前言:根据PCB线路板应用情
期刊
摘要:我国的环境受到了严重的破坏。在地下开采中,采用节能技术和减少排放是非常重要的,而传统的开采方法是非常不环保的。本文主要分析了我国金属矿山最新的节能减排技术,介绍了节能技术在金属地下开采中的实际应用及减排技术。  关键词:金属矿山;地下开采;节能减排技术  引言  金属矿山地下开采是我国社会经济发展的重要因素。随着科学技术的不断发展,传统的采矿方法已经不能满足快速生产的需要。现在,我们不仅要注
期刊
摘要:我国经济的快速发展也增加了对黄金的需求,但金矿被埋在地下,在开采黄金的过程中,道路和技术的选择非常重要。我国有丰富的矿产资源,但它们资源分散,有许多小型金矿。因此,稳定的金矿开采是困难的。在开采过程中,一定要注意开采技术,这是促进金矿可持续发展的必由之路。本文主要介绍了我国黄金开采的现状和未来的发展。  关键词:黄金;矿山;采矿技术;现状;发展探究  引言  随着人们生活质量的提高,人们对黄
期刊
摘要:我国自加入WTO以来,果品出口逐年递增,并全面参与了国际市场竞争。伴随着国内需求水平的提高和国外出口的增长,更快更好地加人国际、国内双循环市场建设,迫切要求我们关注我国的果品冷链现状。在林果业中,冷链物流是连接林果产品生产基地和市场的有效纽带。冬枣冷链物流,是为了保证冬枣品质,以保持低温环境为核心要求的供应链系统。  关键词:冬枣;冷链物流;发展对策  1、冬枣产品发展现状  1.1 种植规
期刊
摘要:税收实务是一门综合性和实践性较强的专业核心课程。本文分析了税收实务课程教学的困境,阐述了“课、岗、证”融合模式的内涵,列举了“课、岗、证”融合模式在税收实务课程中的具体应用,最后引出了实施“课、岗、证”融合模式的教学保障条件。以期对提升税收实务课程教学质量有所启示。  关键词:“课、岗、证”融合模式,税收实务课程改革  一、税收实务课程教学的困境  税收实务是会计专业的一门专业核心课程,集认
期刊
摘要:米曲霉的代谢产物可广泛应用于食品等发酵行业,其应用过程中的一个关键问题是提高它的代谢物产量。因此,本文分别从固态和液态培养基中的培养物及不同的培养技术对米曲霉代谢产物产量的影响进行综述,以期为提高米曲霉代谢产物的产量提供方法与借鉴。  1.前言  米曲霉是一种需氧型曲霉属丝状真菌,在发酵中米曲霉会产生大量的蛋白酶和淀粉酶[1],蛋白酶可以将不易消化的大分子蛋白质降解为蛋白胨、多肽及各种氨基酸
期刊