论文部分内容阅读
本文首先对数据中台的概念进行了阐述。作为一个大数据行业新兴的热门概念,很难对数据中台做出一个广为认同的定义。在文中,本人从数据中台的发展历史、层级结构与其在业务中带来的价值等方面对其进行了阐述,从实践意义上给予了一个定义。数据中台的实践意义在于,如何完成数据的层级分割与水平解耦,独立出公共的业务入口,通过数据建模实现跨域数据整合和知识沉淀,通过服务的形式实现构造数据接口,进行数据业务的开放,对业务前后端应用需求进行快速、灵活应对。然后,对系统的总体业务流程与数据仓库的设计进行了阐述与探究。为了表示数据结构、减少重复开发、方便管理与维护,本人对业务流中数据仓库的层级与结构进行了设计,分为bdl、odl、idl、adl、dim等几个层级,代表不同受处理程度或者不同逻辑层次,每一个层级包含若干个数据库,代表不同来源或者不同功能等。针对具体决策需求又细化为多个主题表,具体来说就是确定决策涉及的范围和所要解决的问题,比如bdl层级中将图片的结构来源信息与base64信息分两张表进行存放并建立索引等。随着企业规模越来越大,清晰的数据层级也有利于不同开发人员权限的分配,对不同层级的数据库采用敏感度不同的维护策略。最后,对系统的详细架构以及各模块内容与调度方式进行了设计与阐述。整个中台系统从功能上分为数据采集模块、数据注册模块、数据标签化模块、索引生成模块与报告生成模块,本人对每个模块进行了设计、编码与部署,每个模块既在数据通路中线性衔接,也可以作为服务被独立调用。最终设计出它们之间的协同运作方式,形成数据中台体系。目前,该系统已经投入使用,已经收集了100余万张图片并进行了结构化存储与初步数据分析,主要包括2000余个品牌分布在米兰、巴黎等四个城市的秀场图片,每半年进行一次增量更新,以及2000名Instagram博主近期发布的图片,每天进行增量更新;封装了各种接口与服务,便于后台开发者提取数据进行模型训练、前端开发者获取需要展示的数据,以及中台开发者对数据仓库的维护;同时,不断增量的数据也作为商品直接产生了经济效益。