论文部分内容阅读
关键词:网络爬虫;工程项目;数据分析
一、绪论
工程项目建设是社会经济活动的重要组成部分,反映社会基础建设资金投入方向,如果一段时间内社会资金集中投向某一行业,说明该行业处于发展上升期间,反之,则说明该行业处于停滞甚至衰退期。因此工程项目建设是社会行业发展的晴雨表,甚至在一定程度上影响未来宏观经济运行趋势,所以对拟在建工程项目的统计分析不仅对社会企业发展,而且对社会治理都具有十分重要的意义。
中项网(https://www.ecpe360.corn/)依靠健全的信息渠道和强大的信息收集加工能力,经验丰富的强大调研跟踪团队和扎实的团队作风,采集一线实际项目投资建设实况数据,形成了全面系统、精准高效的拟在建项目信息汇总发布平台。本文通过爬虫技术对中项网项目信息进行抓取,并对项目数据进行汇总分析,以期对行业分析、区域发展、社会治理提供一定的帮助。
二、相关技术介绍
网络爬虫是一种按照提前设定好的规则,自动地抓取互联网信息的程序或者脚本。从互联网网站抓取公开信息并保存至本地数据库,从而解决难以大量获取互联网数据的困难。最初被用于搜索引擎抓取网站数据。而在当今信息化时代,得数据者得天下。因此网络爬虫广泛用于各种互联网应用。一方面,网络爬虫使数据获取变得容易;但另一方面,网络爬虫不仅消耗公共网络资源,而且损害互联网服务站点,被爬取的服务站点需要消耗大量的物理资源应对网络爬虫,甚至发生宕机事故。因此一些网站采取措施防止被网络爬虫,比如验证码、IP限制、用户行为检测、JS渲染等。网络爬虫技术在数据量爆发式增长的机遇和反爬虫制约的挑战双重环境下不断发展,促生了大量应用框架的诞生。
Python是一个高层次脚本语言,具有解释性、编译性、互动性和面向对象、跨平台等特点,已经成为一种非常流行的计算机程序设计语言。因其开源、简单、易学、可移植、可扩展、易维护的特点,催生了多种网络爬虫框架,例如:Scrapy、Crawley、Portia、Newspaper、Python-goose。其中,最为流行的开源框架是Scrapy,可以快速、简单、高效的爬取Web页面并提取出结构化数据,已经被广泛用于各类应用。
三、工程项目信息爬取
本文爬取的项目信息为中项网项目信息(https://www.ccpc360.com/xiangmu/),上述页面采用表格方式展现项目的基本信息,包括项目名称、领域类型、地区、投资金额(万元)、进展阶段、行业/类型、发布时间等内容。由于项目信息条数太多,不利于在单一页面展现,该页面采用了分页技术。项目信息爬取是指由程序自动获取项目信息的过程,其流程图如图1所示:
四、工程项目信息分析
本文爬取2019年7月至2020年12月18个月内中项网发布的项目信息(如图2所示),共17061项条,去除848项境外项目,剩余169769项国内项目,分别处于土建施工、施工图设计、施工招标、设计招标、暂停、取消等共27个进展阶段,其中处于取消阶段项目535项,处于暂停阶段项目476项,去除以上两项无效阶段项目,国内有效项目共168758项。项目属地覆盖东北、华北、华东、华南、华中、西北、西南七大区域;项目分属轻工纺织食品、石油化学工程、机械电子电器、电力、环保、能源工业、制药工程、仓储物流、建筑房地产、建材、市政、冶金矿产、农林水利、交通设施等20个行业分类;涉及码头港口、水库、铁路、医院、食品、设备制造风力发电、污水等243个领域。
(一)项目区域分析
18个月内东北、华北、华东、华南、华中、西北、西南七大区域项目数分别为:8604項、24846项、55812项、17113项、27852项、13133项和21398项。可以看出华东拟在建项目数最多,这与华东地区经济发达,市场活动活跃有直接关系;东北地区拟在建项目数最少,这与东北地区近年来经济发展速度较慢,市场经济活动较少相关。
从图3可以看出,各地区在2020年上半年拟在建项目数量均有不同程度下降。2020年下半年经济复苏,市场行为开始活跃,因此拟在建项目数量开始增加。明显可以看出华东地区在拟在建项目基数较大的情况下,仍实现了最快的增长率,反映出华东地区经济基础好,市场成熟度高,经营主体活跃等特点。
(二)项目行业分析
18个月内环保、轻工纺织食品、石油化工工程、电力、机械电子电器五类行业位居拟在建项目的前五位,分别达到24692、20372、18938、18447、16973项,占项目总数的58.91%,详见图4。
从图4可以看出环保在项目建设中占据了首要位置,充分体现了绿色发展、持续发展的理念;建筑房地产项目虽然也占据了较为靠前的位置,但其整体比例并不高,体现了“住房不炒”的理念;但是农林水利方面的项目数量明显偏少,与乡村振兴战略地位明显不符。
(三)项目领域分析
18个月内化学制品、生活污水、医院、食品、设备制造5个领域位居拟在建项目的前5位,分别达11237、7795、7573、6988、6516项,占总数的23.8%,且前20个领域内的项目建设已超过全部项目的50%,详见图5。
从图5可以看出生活污水、环境综合治理、污水、太阳能发电、风力发电、垃圾处理等于环保相关领域项目建设占据较大比例,说明社会发展在环保领域的持续发力。充电桩(680项)、5G建设(458项)、工业互联网(257项)、大数据中心(184项)等新兴领域则显得投入不足。
五、结语
针对中项网项目发布信息,利用爬虫技术设计了项目数据采集程序。分析采集到的2019年7月至2020年12月共18个月内项目信息显示,2020年下半年,我国项目建设活动较2020年上半年有较大幅度增加,说明我国经济发展具有坚实的基础和顽强的韧劲;同时也应注意到当前项目建设投资动向与国家发展方向大致相同,但是在一些行业和领域仍需政府机构加强宏观调控和政策引导。
一、绪论
工程项目建设是社会经济活动的重要组成部分,反映社会基础建设资金投入方向,如果一段时间内社会资金集中投向某一行业,说明该行业处于发展上升期间,反之,则说明该行业处于停滞甚至衰退期。因此工程项目建设是社会行业发展的晴雨表,甚至在一定程度上影响未来宏观经济运行趋势,所以对拟在建工程项目的统计分析不仅对社会企业发展,而且对社会治理都具有十分重要的意义。
中项网(https://www.ecpe360.corn/)依靠健全的信息渠道和强大的信息收集加工能力,经验丰富的强大调研跟踪团队和扎实的团队作风,采集一线实际项目投资建设实况数据,形成了全面系统、精准高效的拟在建项目信息汇总发布平台。本文通过爬虫技术对中项网项目信息进行抓取,并对项目数据进行汇总分析,以期对行业分析、区域发展、社会治理提供一定的帮助。
二、相关技术介绍
网络爬虫是一种按照提前设定好的规则,自动地抓取互联网信息的程序或者脚本。从互联网网站抓取公开信息并保存至本地数据库,从而解决难以大量获取互联网数据的困难。最初被用于搜索引擎抓取网站数据。而在当今信息化时代,得数据者得天下。因此网络爬虫广泛用于各种互联网应用。一方面,网络爬虫使数据获取变得容易;但另一方面,网络爬虫不仅消耗公共网络资源,而且损害互联网服务站点,被爬取的服务站点需要消耗大量的物理资源应对网络爬虫,甚至发生宕机事故。因此一些网站采取措施防止被网络爬虫,比如验证码、IP限制、用户行为检测、JS渲染等。网络爬虫技术在数据量爆发式增长的机遇和反爬虫制约的挑战双重环境下不断发展,促生了大量应用框架的诞生。
Python是一个高层次脚本语言,具有解释性、编译性、互动性和面向对象、跨平台等特点,已经成为一种非常流行的计算机程序设计语言。因其开源、简单、易学、可移植、可扩展、易维护的特点,催生了多种网络爬虫框架,例如:Scrapy、Crawley、Portia、Newspaper、Python-goose。其中,最为流行的开源框架是Scrapy,可以快速、简单、高效的爬取Web页面并提取出结构化数据,已经被广泛用于各类应用。
三、工程项目信息爬取
本文爬取的项目信息为中项网项目信息(https://www.ccpc360.com/xiangmu/),上述页面采用表格方式展现项目的基本信息,包括项目名称、领域类型、地区、投资金额(万元)、进展阶段、行业/类型、发布时间等内容。由于项目信息条数太多,不利于在单一页面展现,该页面采用了分页技术。项目信息爬取是指由程序自动获取项目信息的过程,其流程图如图1所示:
四、工程项目信息分析
本文爬取2019年7月至2020年12月18个月内中项网发布的项目信息(如图2所示),共17061项条,去除848项境外项目,剩余169769项国内项目,分别处于土建施工、施工图设计、施工招标、设计招标、暂停、取消等共27个进展阶段,其中处于取消阶段项目535项,处于暂停阶段项目476项,去除以上两项无效阶段项目,国内有效项目共168758项。项目属地覆盖东北、华北、华东、华南、华中、西北、西南七大区域;项目分属轻工纺织食品、石油化学工程、机械电子电器、电力、环保、能源工业、制药工程、仓储物流、建筑房地产、建材、市政、冶金矿产、农林水利、交通设施等20个行业分类;涉及码头港口、水库、铁路、医院、食品、设备制造风力发电、污水等243个领域。
(一)项目区域分析
18个月内东北、华北、华东、华南、华中、西北、西南七大区域项目数分别为:8604項、24846项、55812项、17113项、27852项、13133项和21398项。可以看出华东拟在建项目数最多,这与华东地区经济发达,市场活动活跃有直接关系;东北地区拟在建项目数最少,这与东北地区近年来经济发展速度较慢,市场经济活动较少相关。
从图3可以看出,各地区在2020年上半年拟在建项目数量均有不同程度下降。2020年下半年经济复苏,市场行为开始活跃,因此拟在建项目数量开始增加。明显可以看出华东地区在拟在建项目基数较大的情况下,仍实现了最快的增长率,反映出华东地区经济基础好,市场成熟度高,经营主体活跃等特点。
(二)项目行业分析
18个月内环保、轻工纺织食品、石油化工工程、电力、机械电子电器五类行业位居拟在建项目的前五位,分别达到24692、20372、18938、18447、16973项,占项目总数的58.91%,详见图4。
从图4可以看出环保在项目建设中占据了首要位置,充分体现了绿色发展、持续发展的理念;建筑房地产项目虽然也占据了较为靠前的位置,但其整体比例并不高,体现了“住房不炒”的理念;但是农林水利方面的项目数量明显偏少,与乡村振兴战略地位明显不符。
(三)项目领域分析
18个月内化学制品、生活污水、医院、食品、设备制造5个领域位居拟在建项目的前5位,分别达11237、7795、7573、6988、6516项,占总数的23.8%,且前20个领域内的项目建设已超过全部项目的50%,详见图5。
从图5可以看出生活污水、环境综合治理、污水、太阳能发电、风力发电、垃圾处理等于环保相关领域项目建设占据较大比例,说明社会发展在环保领域的持续发力。充电桩(680项)、5G建设(458项)、工业互联网(257项)、大数据中心(184项)等新兴领域则显得投入不足。
五、结语
针对中项网项目发布信息,利用爬虫技术设计了项目数据采集程序。分析采集到的2019年7月至2020年12月共18个月内项目信息显示,2020年下半年,我国项目建设活动较2020年上半年有较大幅度增加,说明我国经济发展具有坚实的基础和顽强的韧劲;同时也应注意到当前项目建设投资动向与国家发展方向大致相同,但是在一些行业和领域仍需政府机构加强宏观调控和政策引导。