数据平台及数据仓库的建设

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:ggg_0907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:在数据化战略的支持下,淘宝网在庞大的数据平台上构建起了一个具有针对性的数据仓库,为能够有条不紊的运营提供了条件,亦成了淘宝网在市场竞争中的重要工具之一。为了使数据化策略能够为更多企业的发展提供帮助,本文以淘宝网为例,对数据平台以及数据仓库的开发和设计进行了详细讨论,希望能够为现代企业运营和管理中数据化战略的实施提供有益参考。
  关键词:淘宝网;数据仓库;数据平台
  Discussing on Data Platform and Data Warehouse Construction
  ___A Case Study in Taobao
  Abstract:With the support of digital strategy,the taobao in the huge data platform to build a data warehouse with pertinence,offers can in an orderly way of operating conditions,also become taobao one of the important tools in the market competition.In order to make the digital strategy can provide help for the development of more business,Based on taobao,for example,the data platform and the development and design of data warehouse are discussed in detail,hope to be able to for the modern enterprise operation and management to provide the beneficial reference to the implementation of the strategy of digital.
  Key words:Taobao;Data warehouse;Data platform
  中图分类号:TP311.13
  随着数字时代的到来,许多现代化企业已经将其运营和发展的眼光投向了网络。淘宝网作为目前最成功的网购平台和电子商务时代的最杰出代表,其数据化战略的成功实施为自己创造出庞大的社会财富,同时亦为其它企业的发展指明了方向。
  1 相关技术介绍
  1.1 数据仓库。所谓数据仓库(DW)其实是一个专门为解决数据供给问题而存在的数据集成环境,在企业的运营中数据仓库直接服务于决策支持系统,为其提供联机分析应用数据源。在实际的应用中,数据仓库可以体现出以下特征[1]:(1)具有针对性。数据仓库不同于操作型数据库,它在进行数据的存放时需要将数据根据某种主题域组织起来,即将企业的管理和业务上的信息在集中、归纳、分类和分析的基础上进行存储和调用;(2)具有集成性。数据仓库中数据的来源非常广泛,它会对企业运营中的所有分散数据信息进行抽取和清理加工,在消除这些数据中的不规则部分后构建起一个透明的、具有统一特质的企业信息网;(3)具有稳定性。数据仓库的最主要功能是通过过滤和筛选为企业的决策提供有效的数据,这类数据在进入数据仓库后往往会被永久的保存下来。这就决定了数据仓库中的数据始终在不断的扩充,而很少进行删除或修改。
  1.2 云梯系统平台。“云梯分布式文件系统”(HDFS)是淘宝网为其运营专门构建起的系统平台,它是基于Hadoop平台的个性化延伸[2],其理念与MapReduce和Google的文件系统较为相似但又有着明显的不同:首先,云梯系统的设计是基于通用硬件的,因此其运行环境要求非常简单。再者,云梯系统的分布式算法将访问和存储分摊到了大量的廉价服务器之中,这不但提高了其运行效率同时也通过不断的复制备份增强了其安全性。加之云梯兼具了高度的容错功能和数据存储功能,所以目前已经为很多网络服务平台和大型存储系统所应用。
  1.3 HIVE查询语言。HIVE是基于淘宝云梯(HDFS)的数据仓库工具,它不但能够对系统数据进行有效的反应和查询,同时还能够根据数据的文本文件将其制成二维表,而在应对SQL语言时也可将其转换为Hadoop可以识别的程序,同时HIVE语言还具有操作简单、成本低廉等诸多优势,因而非常符合大型数据仓库的使用需求[3]。淘宝网HIVE的应用有效的提升了用户的可操作性,同时也保证了数据分析的间接性和准确性。
  1.4 ETL介绍。所谓ETL就是Extract-Transform-Load的缩写,即对数据的抽取、转换和装载等问题的描述,它通过数据过滤的条件制定直接关系到数据在使用中的实际价值,是源数据进入数据仓库的重要转变过程。因而ETL是整个数据仓库的核心部分。
  2 淘宝网的数据特征分析
  淘宝网发展至今已经不仅仅是一个互联网公司,它同时也发展成了我国目前最大的网络交易平台。因此,淘宝网的信息数据不但具有交易业务数据的特征同时也兼备了互联网数据的相关特点,我们在讨论其数据特征时必须将二者结合到一起:(1)庞大的数据量。从操作上看,淘宝网用户在登录淘宝网站后无论是否进行了交易,只要进行了某种操作如跳换界面、交易、咨询等都会产生相应的用户点击日志。从2012年的数据来看,淘宝网平均会出现33亿/日的日志点击量,其数值是惊人的。而今淘宝网的数据存储总量为50PB,随着电子商务的不断发展淘宝网所要负担的数据量必然继续上升;(2)繁多的数据种类。同上所述,淘宝网既是一间互联网公司又是一个大型的网络交易平台,因而其需要应对结构化和非结构化两种数据。所谓结构化数据指的是用户、商品以及交易的相关信息,而非结构化数据所指的是用户浏览网页时操作所带来的文本信息。两种数据在处理中的解析程序和采集程序截然不同,需要区分对待;(3)数据价值密度低。数据的价值密度与数据的总量成反比,数据量越大数据的价值密度就越低。以用户的日志数据为例,淘宝网每天需要承载33亿的日志点击,要对这一庞大数据进行区分以确定用户的动作已经成为了淘宝网在运作上一个较大的负担。   3 基于淘宝网特征的数据仓库设计
  3.1 云梯计算存储平台。数据的可靠性直接决定了企业决策的准确性,因而为了提高数据的准确性便设置了3个文件副本,即每份数据都有三个作为备份的副本。但是,这样就产生了一个问题:一份数据的存储需要耗损三倍的空间。
  基于此,淘宝云梯推出来一款全新的组件----HDFS Raid(云梯软件容错组建),利用软件容错功能,用户通过对云梯目录或目录内容进行容错,就可以在确保数据可靠性的同时有效降低副本数。这种方案摒弃了简单的复制备份手法,将多个数据的block(模块)进行合并和分类,形成parity blocks(同等模块),继而增强数据的可靠性[4]。这样一来就可以在有效减少了以往的副本数量、释放存储空间的同时达到预期的效果。
  3.2 数据层次结构划分。数据层次的划分实质上就是对构成数据仓库的源数据进行分类处理,这一过程必须严格遵照ETL的规则进行----源数据只有经过过滤和整理之后才能最终进入数据仓库成为企业运作中的数据支持。我们在对数据进行分层定义时可以根据卸载方式将其分为全量数据和增量数据,而根据数据的来源则可以将其分为内部数据和外部数据两类[5]。这里我们主要分析的是根据数据来源进行的数据层次结构划分。内部数据是淘宝网在多年的经营和发展中透过自身的运营而不断积累下的数据,其中包括业务数据、员工信息、财务管理数据、财务信息、核算数据等等。需要注意的是,这些内部数据在生成中不仅限于电子化数据,还有相当一部分属于非电子数据,这就需要企业及时的进行数据填充,使其转化为可以存储于数据仓库并通过计算机系统对企业营运进行支持的可用数据源。与内部数据不同,外部数据的生成大多不与淘宝网自身的运营产生联系,这些数据多来源于第三方,如向艾锐数据公司和新浪微博等第三方机构通过购买手段取得的数据信息[6]。这些数据的获取难度大且成本高,因而淘宝网在运营中仅会将非常重要的外部信息作为自身数据仓库的补充。由此可见,内部数据是淘宝网在营运中的主要数据源,而外部数据仅作为必要补充而存在。这就决定了数据仓库设计中接口的定义要求,源数据必须按照接口定义获取系统数据并输出固定长度的文本文件。
  3.3 ETL设计。ETL设计是整个数据仓库设计的核心所在,直接关系到数据库最终的应用能力。针对ETL的设计主要分为数据抽取、数据清洗转换以及质量控制三个方面,接下来笔者将做详细的阐述:
  3.3.1 数据抽取。在数据抽取方面,根据上文所述以卸载方式进行划分的数据层次结构可将数据抽取分为增量抽取和全量抽取两种方式,如图1所示为数据抽取框架结构图[7]。
  图1 数据抽取框架
  在增量同步的数据抽取模式中,TimeTunnel作为一个数据交换的平台能够同步实现网站服务器与日志数据的交换,并且兼备数据发布和数据订阅等服务。而Dbsync则可以将数据同步与网站的数据抽取整合到一起,通过对数据的分析继而完成数据库的操作,使之与云梯同步,完成数据抽取。在全量同步的数据抽取模式中,DataX在数据仓库和文件之间搭建起了一个可以直接进行交换的桥梁。在进行数据的加载过程中利用内存缓存数据完成了高效的数据交换。
  3.3.2 数据清洗转换。在数据进入数据仓库之前对其进行清理的作用在于去除其中多余的、没有必要的垃圾数据。而这一过程需要通过HIVE查询语言编写的SQL代码完成,其步骤主要包括以下几点:(1)根据需求进行模型设计,确定数据清洗转换条件;(2)进行SDM(信息通道)设计;(3)确定转换规则并编写HIVE SQL代码。
  3.3.3 ETL数据质量控制。数据质量直接关系到数据仓库的利用价值,也是ETL设计的重中之重,该部分ETL需要依靠其完整性对字段级、记录级和表级等多个层次的数据进行质量监控。这一手段不仅可以确保了业务数据在数据仓库加载过程中的准确性,同时也能完成对其质量的评估:(1)在数据的抽取和传送阶段。由于源数据在进入数据仓库时必须通过标准接口,这就保证了输入数据与数据仓库内数据类型的一致;(2)在数据加载阶段,在DATAX的支持下调度系统更能够根据DATAX加载过程中产生的日志数据的特质对数据的正确性进行判断,继而准确的完成数据文件到云梯的加载工作[8];(3)在数据转换的阶段。云梯平台下的数据转换是在其内部完成的,因此在转换过程中云梯会从数据角度、业务角度等多方面对数据进行反验证,以确保其准确性。正是通过ETL多重繁琐的校验和监测才确保了数据在进入数据仓库时的高准确度和高质量,继而提高了数据仓库的利用效果。
  4 数据平台及数据库在淘宝网上的实际应用
  在完成数据平台及数据库的相关设计后我们便要将理论性设计转化为实际应用,并在根据需要进行系统各个部分的编码工作。
  4.1 ETL过程实现。对ETL的数据抽取实际上就是将淘宝业务系统的数据通过DATAX抽取工具应用到云梯上去,这一工作我们要用到的数据库为Mysql或Oracle。其中,DATAX是一种集成于ETL的较为常见的数据处理工具,如图2为DATAX在应用于淘宝网时对旺旺消息表数据进行抽取配置的界面截图:
  图2 数据抽取配置功能
  在应用DATAX完成相关配置后便可生成xml文件,完成程序编写工作。需要注意的是,淘宝网在运行过程中需要抽取的数据非常庞大,因而为了确保工作的准确性和高效性必须将任务配置到ETL调度系统来完成数据抽取,如图3为ETL调度任务的配置。
  图3 ETL调度任务配置
  4.2 数据模型实现。淘宝网模型层的构建和设计选用了PowerDesignerl6.0工具,并将电子商务行业分成了6部分,继而形成了40余个实体表,如图4为PowerDesigrierl6工具的用户应用界面。
  图4 用户表物理表   在模型确立之后便可生成HVIE SQL语句并在IDE里执行建表语句,如表1为设计的相关维度信息。
  表1 用户主表维表清单
  4.3 PORTAL展现实现。在进行PORTAL展现时淘宝网数据库采用了WEBX的开发框架和JBOSS服务器,并且在Eclipse开发工具的支持下利用了FLEX进行了效果展示。如图5为淘宝网前端主面的实现。
  图5 Portal首页
  在完成主面设计的同时要完成安全管理界面的相关配置工作,而这一界面的设计是专门针对内部管理人员对淘宝网进行操作控制而设计的,因而只有通过审核的用户才能对其系统进行相关操作,如图6为安全管理主要配置界面。
  图6 权限分配页面
  5 结束语
  随着市场经济的发展和网络信息时代的来临,企业间的商业竞争已经延伸到了网络领域,信息技术的战争愈演愈烈,而数据的掌控量和控制水平已经切实的影响到了一个企业在商战中的成败。企业拥有的庞大数据已然成为了一个确保其持续发展的潜在利润矿藏,因此只有利用先进技术充分挖掘出数据本身蕴含的巨大潜力才能确保企业的长盛不衰。本文以淘宝网的数据仓库搭建作为例证对数据平台和数据仓库的设计和实现做了详细的分析与研究,迎合了目前社会企业发展的趋势,因而具有较高的实用性价值,笔者也希望本文能够为今后电子商务的发展和社会经济的进步提供有益的帮助。
  参考文献:
  [1](英)迈尔-公恩伯格,(英)库克耶.大数据时代[M].杭州:浙江人民山版社,2013.
  [2](美)怀特(White,T.).Hadoop权威指南(第2版)[M].北京:清华大学出版社,2011.
  [3]赵欢.一个商业银行数据仓库系统模型设计与实现[D].上海复旦大学,2011.
  [4]卢亿雷.Hadoop在互联网存储中的应用与挑战[J].程序员,2013(02):48-51.
  [5]陈纪英.大数据革命:信息时代寻宝指南——掘金大数据[J].中国新闻周刊,2013(03):48-54.
  [6]郭斯杰,赀鸿飞,熊劲.互联网海量数据存储和处理技术综述[J].信息技术快报,2009(05):1.
  [7]乍品觉.大数据的魅力:通过数据互联产生价值[J].周刊,2012(02):5-8.
  [8]季显武,田大钢.基于Teradata数据仓库的零售业商务智能模型[J].价值工程,2010(16):150-152.
  作者简介:田素端(1976-),女,河南南阳人,高级讲师,1999年7月毕业于陕西师范大学,本科,硕士,从事计算机应用技术专业的教学工作,主要研究方向:图形图像处理和数据库技术。
  作者单位:南京工程高等职业学校,南京 211135
其他文献
摘 要:Excel中有300多个函数,具有强大的数据处理和计算功能,其中,对单元格地址的引用是很多使用者头疼的一件事,也是老师在上课时比较难讲的内容之一,本文通过具体的使用实例,详细的解析了Excel中的单元格地址引用的变化规律。  关键词:单元格地址引用;绝对引用;相对引用;混合引用  中图分类号:TP317.3  Excel是一款非常重要的办公软件,通常用来制作报表和对数据进行统计分析的,比如
期刊
摘 要:本文主要论述了一个用Java程序实现的一个小游戏,即魔方游戏。由于这个游戏设计简单,比较适合我们这一知识层次的人编写,并且编写出的游戏非常有内涵,有可玩性,针对人群非常广泛,是一种智力开发游戏,对游戏爱好者来说比较适合。  关键词:Java;小游戏;魔方;Java语言  中图分类号:TP311.52  现代社会,电脑游戏爱好者云集,并且越来越多的人加入到这个行列中来,这一现象表明电脑游戏成
期刊
摘 要:开展数字城市建设将提升政府管理水平和公众服务水平。网络支撑环境建设是数字城市建设中不可缺少的基本组成部分,本文以数字吴川建设为例子,综合了阐述支撑数字城市建设网络支撑环境,对网络支撑环境的基本策略、架构设计和机房规划、网络部署等方面进行了详细的设计。  关键词:数字城市;网络;建设  中图分类号:TU994  建设“数字城市”是新型城市化的必由之路,它本质上是以信息基础设施为核心的完整的城
期刊
摘 要:针对传统的物联网RFID中间件以数据处理为核心不能为上层运用提供事件消息,无法运用到实时信息系统的缺陷。建立一套事件提取机制,供上层运用注册价值事件,在中间件中检测事件,生成事件并以异步模式传递事件消息。建立事件记录树,实现事件的检测和生成。减少上层运用的运行开销,扩展传统物联网RFID中间件的运用领域。  关键词:RFID中间件;事件提取机制;事件记录树  中图分类号:TP368.1;T
期刊
摘 要:科技成果奖励制度是国家用以引导和激励科技人员投身科技事业的一项长期和重要的措施,科技成果奖励这种机制所起的作用是有目共睹的,并已越来越受到广大科技人员的重视,起到了推动国家科技发展的作用。但是随着社会的不断发展和奖励工作的不断深入,科技成果奖励工作中仍旧存在一些问题。针对目前科技成果评价方面的不足,通过对现行科技成果及成果评审方法的深入研究,提出了一种基于模糊数学理论的科技成果评价系统模型
期刊
摘 要:EtherCAT拥有杰出的通讯性能,接线非常简单,并对其它协议开放。EtherCAT拥有多种机制,支持主站到从站、从站到从站以及主站到主站之间的通讯。它实现了安全功能,采用技术可行且经济实用的方法,使以太网技术可以向下延伸至I/O级。EtherCAT功能优越,可以完全兼容以太网,可将因特网技术嵌入到简单设备中,并最大化地利用了以太网所提供的巨大带宽,是一种实时性能优越且成本低廉的网络技术 
期刊
摘 要:根据教学中存在的问题进行静态数码软件课程教学的有效教学实践研究,提出课程教学第一个关键点是要有专业针对性,要根据视觉设计专业重点运用的领域安排教学内容和组织课堂教学,所以提出针对性强、循序渐进和因材施教的渐层型课程模式;第二个关键点是要有教学效率和教学效果,所以提出能激发学生专业热情和培养学生专业能力的效能型课程模式。具体通过简化制作流程和细化制作任务来达到教学的高效性;培养学生专业能力,
期刊
摘 要:目前,绝大多数中职学校教师使用多媒体课件进行辅助教学,但不是所有多媒体课件都能达到预期效果。对于多媒体课件在课堂教学中出现的问题及误区,本文以赤峰农牧学校为研究对象,采用问卷调查法对多媒体课件的呈现方式、应用效果、使用情况等方面进行了调查研究,发现其中的问题,并针对这些问题提出了较为科学的对策和建议。  关键词:多媒体课件;现状调查;对策研究  中图分类号:G642.4  计算机被引入教学
期刊
摘 要:随着我国科学技术的飞速发展,人们在信息技术领域取得了很大的成就,这也就进一步促进了我国对于计算机人才的培养步伐。整体上来讲,计算机教育着重培养具有计算机应用能力的人才,并且将这个培养方向更进一步深化。当然,计算机教育中科学思维能力的培养也是十分重要的,将计算机应用与科学思维的培养紧密结合是我们新时代赋予给我们的新的任务。所以,笔者根据多年的教学经验,从计算机应用与科学思维能力培养方面,浅谈
期刊
摘 要:本文主要介绍组成技术、应用范围。可以实现调频收音机功能,同时能够实时了解佩戴人的具体位置信息,让人们在收听广播的同时,能够自动及时发送准确定位信息,使其家人能及时找到他们。  关键词:定位;收音;单片机;GSM;GPRS  中图分类号:TN851  在现代社会中,中国人口逐渐步入老龄化,孩子的课余生活丰富多彩。随着人们的生活水平不断提高,生活中的数字化和智能化也越来越受到人们的关注。许多老
期刊