论文部分内容阅读
我国宏观经济运行正面临诸多新问题新挑战,迫切需要做好政策储备。前瞻性地研判宏观经济走势,仅仅依靠统计数据稍显滞后。市场日趋复杂和多元,采用大数据分析方法一定程度上能够弥补如此局限,是提高宏观经济研判效率、积极应对内外部挑战的必要工具。阿里巴巴作为全球互联网公司市值第五名企业,汇聚了海量经济数据,在大数据应用于行业分析、景气判断、经济预测等宏观经济研究方面进行了有益的探索,值得借鉴。
一、初期探索:前瞻性精准预判的优势初步显现
早在2008年初,阿里巴巴就成功地应用大数据预测出世界贸易拐点。根据常识,买家在采购商品前,会比较多家供应商的产品,反映到阿里网站统计数据中,就是查询点击数量和购买点击量会保持一个相对稳定的数值。阿里综合各个维度的海量数據建立了“点击量—购买量”的用户行为模型。2008年初,阿里平台上欧美买家的查询点击数急剧下滑。根据该用户行为模型,阿里前半年时间预测出了世界贸易的拐点。这成为阿里较早应用大数据研究宏观经济的成功案例,也显示出大数据在宏观经济分析应用中所具有的前瞻性精准预判优势。
二、基本逻辑:底层数据—指标集—经济模型
随着物联网、云计算、人工智能等新一代信息技术的发展,阿里逐渐采集、汇聚、整理、分析和研究其平台内外的数据,形成了“数据—指标—模型”的大数据研究宏观经济的基本逻辑。
(一)汇聚阿里生态圈全域数据
阿里主要采集的数据包括:淘宝天猫、新零售、飞猪、蚂蚁金服、大阿云、高德、钉钉、大文娱、阿里健康、站外数据等阿里生态经济圈的全域数据。具体包括电商、零售、生活、工具、商业基础设施、外部等6大类13小类72种数据,其中既包括基本画像、行为偏好、社会交往、财富状况等消费者数据,也包括商品/品牌、行业/地域、风险/价值等商业数据。数据采集方式为数据库接入、外部数据爬取、舆情数据,以及通过人脉、经验、内部管理层级等手工录入。之后进行数据清洗。数据清洗方法:一是根据统计局、省市县、贫困县、农产品等分类整理;二是对文本进行结构化;三是对舆情等数据进行情感分析,最后得到经济与社会数据、人脉关系数据。
(二)提取经济数据指标集合
基于汇聚起来的经济数据,阿里从新零售、消费升级、产业发展、区域经济、全球化、中小企业双创、平台经济治理、数据技术政策、技术普惠和社会责任等十个维度提取经济数据指标集合,共涉及28类指标。总体上看,这些指标包括主要四类:一是区域经济发展指标,包括城镇化、淘宝村等方面指标;二是行业发展指标,包括产业带、小微企业活跃度、绿色产品、农产品、国产品牌、老字号等方面的指标;三是人的指标,包括消费升级、大学生、残疾人、妇女等方面的指标;四是国家关系指标,包括贸易、旅游、金融等方面的指标。
(三)构建模型展开经济研究
阿里在底层数据和指标集合的基础上,构建模型开展经济研究。模型的逻辑是通过A(指标)变化看B的情况:一是分析就业、消费者福利、普惠金融等领域指标,得出阿里价值;二是分析消费品价格、信息化、创业等领域指标,为政府价格监测、供给侧结构改革、智能制造、双创等政策提供决策支撑;三是分析AI/IOT/BC技术趋势、平台治理、数据规范等领域指标,对未来发展进行预测;四是分析数据经济。如,通过母婴用品指标分析二胎情况、通过冬装指标分析气候、通过食盐指标分析人口分布、通过进口保健品指标分析供给侧改革、通过人员流动指标分析房地产和区域发展不平衡状况。
三、主要特点:围绕数据全生命周期开展“小核心、大协作”的数据能力整合
阿里充分利用大数据时代的颠覆性数据算力,围绕阿里生态内外海量数据的采集、汇聚、分析和反馈等核心环节,以“小核心、大协作”的内外部资源配置模式,组织“内部少量数据分析团队+规模庞大内部数据清洗团队和外部研究团队”,探索开展宏观经济分析,并对数据全生命周期进行安全保障。
(一)体现了及时、精准、低成本、高颗粒度和大样本等大数据独特优势
一是及时性。阿里互联网平台积累起来的数据存储在开放、即时的网络空间中,交易数据、价格数据、浏览痕迹、位置信息等一切信息从相关主体使用互联网起,即刻被记录在网络平台中。这些数据被特定算法提取出来并用于处理和分析经济问题,不存在时滞。二是精准性。阿里互联网平台按照实际电子商务交易情况记录数据信息,减少办理人员人工登记的操作,提供相对更加原始的数据信息,而非人工搜集并经过处理后的数据信息,体现了分析精确性的特征。三是低成本。阿里平台大数据是用户使用过程中自动被记录下来的,不需人工调查和搜集。用于经济分析的数据是通过算法等技术手段提取出来加以整理获得的,很大程度上降低了数据获取成本。四是高颗粒度。阿里互联网平台汇聚了10万余种具体商品的交易数据,摆脱了传统经济研究集中在国家总量数据、行业总体数据等非细化数据的局限,使得阿里可以开展更加细化、更加具体的经济研究。五是大样本量。阿里互联网平台生态中既有大企业,也有大量规模以下的小微企业,使阿里拥有海量的样本数,可以相对获取总体或者接近全体的样本信息。
(二)内部以部门合作方式生成和分析价格变动等宏观经济指标
阿里巴巴以清晰科学的部门专业化分工开展大数据经济分析研究,基本分工方式为:少量经济分析人员+大量数据采集和清洗人员。经济分析人员配置较少。通常情况下,一项大数据经济分析任务仅配置3名研究人员左右、全职工作3—6个月完成。数据采集清洗人员规模庞大。阿里配置了常设的百人规模的团队负责数据采集和清洗工作。具体的工作内容庞杂而细碎。例如,a为b购买商品,a在北京下单和支付,b在沈阳收货。当经济分析任务是研究区域消费购买力时,数据采集清洗团队要通过算法识别出该“支付和收货不同城”的交易类别,并将其归入a所在的北京地区数据集。
目前,阿里巴巴生产的常规指数包括网购价格指数、区域电商指数、云栖指数(用于测度云计算应用情况)。其中,主要用于宏观经济研究的为网购价格指数。总体上看,网购价格指数由两类指数构成。一是阿里网购核心商品价格指数(aSPI—core)。该指数是固定篮子价格指数,通过圈定阿里零售平台上近五百个基本分类下接近10万种核心商品作为“固定篮子”,每月追踪“固定篮子”内商品和服务实际网购成交价格变化,以刻画网购主流商品和服务的一般物价水平波动,从而从网络零售渠道反映宏观物价走势。二是阿里巴巴全网网购价格指数(aSPI)。该指数用以反映全网总体网购支出价格水平的变化。它不但包含了商品层面一般价格变动,还包含了新产品涌现所形成的消费结构变动信息。两组指数均由十大分类指数构成,分别是食品、烟酒及用品、衣着、家庭设备及维修服务、医疗保健和个人用品、交通和通信、娱乐教育文化用品及服务、居住、办公用品和服务及爱好收藏投资。十大分类指数下还包括了近五百个基本分类价格指数。 (三)对外以项目制开展宏观经济单个领域研究合作
一是与清华大学合作开展京津冀“电商→区域一体化”促进指数研究。该研究采集阿里平台在京津冀地区销售大数据,度量电商对区域经济一体化的影响效果。指数体系分为区域差异性指数、专业化分工指数以及城市间互动指数等三个“横向”维度,另外还有区域层面和城市层面这两个指数的“纵向”维度。指数间通过几何加权平均方法进行合成,从而得到电子商务对区域一体化促进指數。
二是与国务院发展研究中心合作开展重点城市价格监测,选取阿里平台在重点城市的重点产品消费情况,监测重点城市的消费发展。
三是与国家发改委的合作。采集阿里平台消费大数据,分析消费构成比例变化,用于对“十三五”规划中消费升级的评估。该研究分析中高端商品消费、信息消费、个性消费比例变动,判断消费升级情况;分析长江经济带、粤港澳等地区消费占比,判断消费的区域增长动力情况;分析盒马鲜生、天猫小店等消费占比,判断新业态消费发展情况。
(四)从数据全生命周期梳理出14个安全域设立50个安全管理过程
阿里大数据宏观经济分析涉及复杂的数据流程和庞大的数据量,并涉及阿里生态内外的多方数据主体。为此,阿里在数据产生、数据存储、数据使用、数据传输、数据共享、数据销毁等数据全生命周期共梳理出14个安全域。其中,数据产生环节包括数据权利管理、数据分类分级等2个安全域。数据存储环节包括存储介质安全、存数数据安全、数据可用性管理等3个安全域。数据使用环节包括身份认证与访问控制、加密管理、数据使用行为监控、数据使用过程安全等4个安全域。数据传输环节包括网络安全管理等1个安全域。数据共享环节包括数据共享基本原则、数据共享安全等2个安全域。数据销毁环节包括数据清理、数据介质的销毁等2个安全域。在每个安全域,阿里又细分出50个安全管理过程。在每个安全管理过程中,都制定了相关的规章、工作流程,并能够对安全管理的结果进行量化分析和可视化展示。目前,这些数据安全管理流程逐渐被阿里平台上的企业所使用,向这些企业赋能。
四、借鉴阿里经验,推动宏观经济研究智能化发展
(一)探索推进智库与互联网平台“经济分析+数据采集清洗”模式合作
阿里与清华大学、国务院发展研究中心等高端智库合作的分工,通常采取阿里的数据能力与高端智库的研究能力结合。建议发挥高端智库经济研究人员规模较大、专业齐全的优势,推进与互联网平台公司开展对接合作。通过研究需求导向,积极推进高端智库与互联网平台沟通,逐步解决当前大数据宏观经济分析中数据编码、分类、时间、空间等口径不一致问题,解决基础信息采集、分析、使用的困难。
(二)研究建立大数据宏观经济监控指标体系
大数据研究宏观经济正在发生三个转变:从依靠传统统计数据向依靠互联网非统计数据转变,从监测预测宏观经济总量向监测预测宏观经济先行指标转变,从中长期监测预测向实时监测预测转变。但也应看到,大数据应用宏观经济研究更多是对价格、消费等进行客观描述,较少采用结构性的方法来分析,缺乏经济理论支撑。因此,建议发挥高端智库的经济研究理论优势,围绕网络搜索、社交媒体、电子商务、终端定位和业务交易等大数据源,探索建立基于非传统数据的宏观经济监测预测体系,提升宏观经济形势分析以及重点行业、重点区域发展实时监测预测的大数据应用能力,以及中美贸易战等突发事件应急研究相应能力。
(三)着力解决数据使用中的安全隐患
互联网平台公司的大数据中,微观数据主体是多元的。一方面,基础数据和初步合成数据涉及生态圈中小企业、平台企业商业秘密,有较强的企业数据隐私性。另一方面,当众多微观数据运用大数据技术合称为宏观数据后,会涉及国家经济安全。因此,建议着力关注数据应用的安全问题。鉴于我国高端智库的信息化团队普遍规模较小,建议借鉴阿里等平台公司对数据全生命周期的安全管理模式,建立智库大数据使用规章、制度、流程,合理安全使用大数据。
(作者单位:中国宏观经济研究院、国家发展改革委经济所)
一、初期探索:前瞻性精准预判的优势初步显现
早在2008年初,阿里巴巴就成功地应用大数据预测出世界贸易拐点。根据常识,买家在采购商品前,会比较多家供应商的产品,反映到阿里网站统计数据中,就是查询点击数量和购买点击量会保持一个相对稳定的数值。阿里综合各个维度的海量数據建立了“点击量—购买量”的用户行为模型。2008年初,阿里平台上欧美买家的查询点击数急剧下滑。根据该用户行为模型,阿里前半年时间预测出了世界贸易的拐点。这成为阿里较早应用大数据研究宏观经济的成功案例,也显示出大数据在宏观经济分析应用中所具有的前瞻性精准预判优势。
二、基本逻辑:底层数据—指标集—经济模型
随着物联网、云计算、人工智能等新一代信息技术的发展,阿里逐渐采集、汇聚、整理、分析和研究其平台内外的数据,形成了“数据—指标—模型”的大数据研究宏观经济的基本逻辑。
(一)汇聚阿里生态圈全域数据
阿里主要采集的数据包括:淘宝天猫、新零售、飞猪、蚂蚁金服、大阿云、高德、钉钉、大文娱、阿里健康、站外数据等阿里生态经济圈的全域数据。具体包括电商、零售、生活、工具、商业基础设施、外部等6大类13小类72种数据,其中既包括基本画像、行为偏好、社会交往、财富状况等消费者数据,也包括商品/品牌、行业/地域、风险/价值等商业数据。数据采集方式为数据库接入、外部数据爬取、舆情数据,以及通过人脉、经验、内部管理层级等手工录入。之后进行数据清洗。数据清洗方法:一是根据统计局、省市县、贫困县、农产品等分类整理;二是对文本进行结构化;三是对舆情等数据进行情感分析,最后得到经济与社会数据、人脉关系数据。
(二)提取经济数据指标集合
基于汇聚起来的经济数据,阿里从新零售、消费升级、产业发展、区域经济、全球化、中小企业双创、平台经济治理、数据技术政策、技术普惠和社会责任等十个维度提取经济数据指标集合,共涉及28类指标。总体上看,这些指标包括主要四类:一是区域经济发展指标,包括城镇化、淘宝村等方面指标;二是行业发展指标,包括产业带、小微企业活跃度、绿色产品、农产品、国产品牌、老字号等方面的指标;三是人的指标,包括消费升级、大学生、残疾人、妇女等方面的指标;四是国家关系指标,包括贸易、旅游、金融等方面的指标。
(三)构建模型展开经济研究
阿里在底层数据和指标集合的基础上,构建模型开展经济研究。模型的逻辑是通过A(指标)变化看B的情况:一是分析就业、消费者福利、普惠金融等领域指标,得出阿里价值;二是分析消费品价格、信息化、创业等领域指标,为政府价格监测、供给侧结构改革、智能制造、双创等政策提供决策支撑;三是分析AI/IOT/BC技术趋势、平台治理、数据规范等领域指标,对未来发展进行预测;四是分析数据经济。如,通过母婴用品指标分析二胎情况、通过冬装指标分析气候、通过食盐指标分析人口分布、通过进口保健品指标分析供给侧改革、通过人员流动指标分析房地产和区域发展不平衡状况。
三、主要特点:围绕数据全生命周期开展“小核心、大协作”的数据能力整合
阿里充分利用大数据时代的颠覆性数据算力,围绕阿里生态内外海量数据的采集、汇聚、分析和反馈等核心环节,以“小核心、大协作”的内外部资源配置模式,组织“内部少量数据分析团队+规模庞大内部数据清洗团队和外部研究团队”,探索开展宏观经济分析,并对数据全生命周期进行安全保障。
(一)体现了及时、精准、低成本、高颗粒度和大样本等大数据独特优势
一是及时性。阿里互联网平台积累起来的数据存储在开放、即时的网络空间中,交易数据、价格数据、浏览痕迹、位置信息等一切信息从相关主体使用互联网起,即刻被记录在网络平台中。这些数据被特定算法提取出来并用于处理和分析经济问题,不存在时滞。二是精准性。阿里互联网平台按照实际电子商务交易情况记录数据信息,减少办理人员人工登记的操作,提供相对更加原始的数据信息,而非人工搜集并经过处理后的数据信息,体现了分析精确性的特征。三是低成本。阿里平台大数据是用户使用过程中自动被记录下来的,不需人工调查和搜集。用于经济分析的数据是通过算法等技术手段提取出来加以整理获得的,很大程度上降低了数据获取成本。四是高颗粒度。阿里互联网平台汇聚了10万余种具体商品的交易数据,摆脱了传统经济研究集中在国家总量数据、行业总体数据等非细化数据的局限,使得阿里可以开展更加细化、更加具体的经济研究。五是大样本量。阿里互联网平台生态中既有大企业,也有大量规模以下的小微企业,使阿里拥有海量的样本数,可以相对获取总体或者接近全体的样本信息。
(二)内部以部门合作方式生成和分析价格变动等宏观经济指标
阿里巴巴以清晰科学的部门专业化分工开展大数据经济分析研究,基本分工方式为:少量经济分析人员+大量数据采集和清洗人员。经济分析人员配置较少。通常情况下,一项大数据经济分析任务仅配置3名研究人员左右、全职工作3—6个月完成。数据采集清洗人员规模庞大。阿里配置了常设的百人规模的团队负责数据采集和清洗工作。具体的工作内容庞杂而细碎。例如,a为b购买商品,a在北京下单和支付,b在沈阳收货。当经济分析任务是研究区域消费购买力时,数据采集清洗团队要通过算法识别出该“支付和收货不同城”的交易类别,并将其归入a所在的北京地区数据集。
目前,阿里巴巴生产的常规指数包括网购价格指数、区域电商指数、云栖指数(用于测度云计算应用情况)。其中,主要用于宏观经济研究的为网购价格指数。总体上看,网购价格指数由两类指数构成。一是阿里网购核心商品价格指数(aSPI—core)。该指数是固定篮子价格指数,通过圈定阿里零售平台上近五百个基本分类下接近10万种核心商品作为“固定篮子”,每月追踪“固定篮子”内商品和服务实际网购成交价格变化,以刻画网购主流商品和服务的一般物价水平波动,从而从网络零售渠道反映宏观物价走势。二是阿里巴巴全网网购价格指数(aSPI)。该指数用以反映全网总体网购支出价格水平的变化。它不但包含了商品层面一般价格变动,还包含了新产品涌现所形成的消费结构变动信息。两组指数均由十大分类指数构成,分别是食品、烟酒及用品、衣着、家庭设备及维修服务、医疗保健和个人用品、交通和通信、娱乐教育文化用品及服务、居住、办公用品和服务及爱好收藏投资。十大分类指数下还包括了近五百个基本分类价格指数。 (三)对外以项目制开展宏观经济单个领域研究合作
一是与清华大学合作开展京津冀“电商→区域一体化”促进指数研究。该研究采集阿里平台在京津冀地区销售大数据,度量电商对区域经济一体化的影响效果。指数体系分为区域差异性指数、专业化分工指数以及城市间互动指数等三个“横向”维度,另外还有区域层面和城市层面这两个指数的“纵向”维度。指数间通过几何加权平均方法进行合成,从而得到电子商务对区域一体化促进指數。
二是与国务院发展研究中心合作开展重点城市价格监测,选取阿里平台在重点城市的重点产品消费情况,监测重点城市的消费发展。
三是与国家发改委的合作。采集阿里平台消费大数据,分析消费构成比例变化,用于对“十三五”规划中消费升级的评估。该研究分析中高端商品消费、信息消费、个性消费比例变动,判断消费升级情况;分析长江经济带、粤港澳等地区消费占比,判断消费的区域增长动力情况;分析盒马鲜生、天猫小店等消费占比,判断新业态消费发展情况。
(四)从数据全生命周期梳理出14个安全域设立50个安全管理过程
阿里大数据宏观经济分析涉及复杂的数据流程和庞大的数据量,并涉及阿里生态内外的多方数据主体。为此,阿里在数据产生、数据存储、数据使用、数据传输、数据共享、数据销毁等数据全生命周期共梳理出14个安全域。其中,数据产生环节包括数据权利管理、数据分类分级等2个安全域。数据存储环节包括存储介质安全、存数数据安全、数据可用性管理等3个安全域。数据使用环节包括身份认证与访问控制、加密管理、数据使用行为监控、数据使用过程安全等4个安全域。数据传输环节包括网络安全管理等1个安全域。数据共享环节包括数据共享基本原则、数据共享安全等2个安全域。数据销毁环节包括数据清理、数据介质的销毁等2个安全域。在每个安全域,阿里又细分出50个安全管理过程。在每个安全管理过程中,都制定了相关的规章、工作流程,并能够对安全管理的结果进行量化分析和可视化展示。目前,这些数据安全管理流程逐渐被阿里平台上的企业所使用,向这些企业赋能。
四、借鉴阿里经验,推动宏观经济研究智能化发展
(一)探索推进智库与互联网平台“经济分析+数据采集清洗”模式合作
阿里与清华大学、国务院发展研究中心等高端智库合作的分工,通常采取阿里的数据能力与高端智库的研究能力结合。建议发挥高端智库经济研究人员规模较大、专业齐全的优势,推进与互联网平台公司开展对接合作。通过研究需求导向,积极推进高端智库与互联网平台沟通,逐步解决当前大数据宏观经济分析中数据编码、分类、时间、空间等口径不一致问题,解决基础信息采集、分析、使用的困难。
(二)研究建立大数据宏观经济监控指标体系
大数据研究宏观经济正在发生三个转变:从依靠传统统计数据向依靠互联网非统计数据转变,从监测预测宏观经济总量向监测预测宏观经济先行指标转变,从中长期监测预测向实时监测预测转变。但也应看到,大数据应用宏观经济研究更多是对价格、消费等进行客观描述,较少采用结构性的方法来分析,缺乏经济理论支撑。因此,建议发挥高端智库的经济研究理论优势,围绕网络搜索、社交媒体、电子商务、终端定位和业务交易等大数据源,探索建立基于非传统数据的宏观经济监测预测体系,提升宏观经济形势分析以及重点行业、重点区域发展实时监测预测的大数据应用能力,以及中美贸易战等突发事件应急研究相应能力。
(三)着力解决数据使用中的安全隐患
互联网平台公司的大数据中,微观数据主体是多元的。一方面,基础数据和初步合成数据涉及生态圈中小企业、平台企业商业秘密,有较强的企业数据隐私性。另一方面,当众多微观数据运用大数据技术合称为宏观数据后,会涉及国家经济安全。因此,建议着力关注数据应用的安全问题。鉴于我国高端智库的信息化团队普遍规模较小,建议借鉴阿里等平台公司对数据全生命周期的安全管理模式,建立智库大数据使用规章、制度、流程,合理安全使用大数据。
(作者单位:中国宏观经济研究院、国家发展改革委经济所)