现代企业数据战略所需的5种技术能力

来源 :计算机世界 | 被引量 : 0次 | 上传用户:wuyonghong1974
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

要成为数据驱动型的企业,应不断追求卓越。这并不简单,但也不应该让人望而生畏。


  与今天相比,10年前建立数据战略要相对容易一些。那时,数据库专家们争论着甲骨文、微软和IBM关系数据库的功能和性能,还针对是否使用MySQL和PostgresSQL等开源数据库展开了辩论。少数企业研究了NoSQL数据库,这包括来自MarkLogic、MongoDB和Apache Cassandra等公司的文档存储、键值数据库和列式数据库等技术。在企业系统之间移动大量数据的企业投资于ETL(提取、转换和加载)平台,而少数企业则投资于数据质量或者主数据管理解决方案。
  而发展到今天,首席信息官认识到数据和信息是21世纪的真正宝库。拥有多样化的数据管理选择、可靠的数据操作实践、主动数据治理、高级分析、公民数据科学计划和成熟的机器学习能力等,都是实现具有竞争力和差异化的业务能力所必需的。

缩小数据战略与执行之间的差距


  前不久,我参加了在纽约举行的Strata数据大会,想要了解一下首席信息官们在制定和执行全面数据战略时所面临的新机遇、趋势和挑战。
  在开幕式的主题演讲中,Cloudera公司的首席营销官Mark Hollison引用了《哈佛商业评论》最近进行的一项研究,非常清楚地证明了这些挑战。这项研究的一个关键发现是,“69%的受访者说,他们的企业需要全面的数据战略,以便在未来3年内实现其战略目标,而只有35%的受访者说,他们企业的分析和数据管理能力正在朝着这些目标前进。”
  这说明了对数据和分析的业务期望越来越高,而底层实现却越来越复杂,这其间有很大的差距。首席信息官们如果想缩小这些差距,那就应该在他们的数据战略中考虑Strata数据大会重点介绍的以下5种技术能力。

1.管理多个云上的数据平台


  据同一项调查,51%的受访者计划在其数据战略中使用多个云,只有12%的受访者将75%以上的数据放在公有云上。将数据整合到集中式数据仓库或者数据湖的策略似乎已经过时了,而新现实是,首席信息官必须能够管理、集成和共享存储在多个公有云和私有云中的数据。
  好消息是,Cloudera数据平台、SAP数据汇集和InfoWorks DataFoundry等平台能够帮助数据部门管理、集成和治理对存储在不同大数据引擎和不同云上的数据存储库的访问。
  我曾与InfoWorks首席执行官Buno Pati讨论过怎样在多云环境中处理数据。他告诉我,“为企业数据处理和编排打好健壮而又灵活的基础是任何现代企业数据战略成功的关键所在。这些系统必须能够帮助企业快速启动新的分析应用实例,最大限度地减少对非常专业化人才的依赖,并无缝地穿越具有各种执行引擎和存储系统(例如,Hadoop、Spark和云基础设施)的混合云和多云环境。”

2.在多个大数据平台上要有成熟的功能


  首席信息官们可以使用袖珍字典来帮助定义越来越流行的所有大数据平台。尽管大数据平台早期大多使用了Hadoop,而当今的企业则采用了多种平台,包括Apache Spark、Apache Hive、Snowflake,以及AWS、Azure和谷歌云平台支持的多个数据库,等等。
  使用多个大数据平台给首席信息官们带来了巨大的挑战,这是因为很难找到擅长数据和分析的技术人员,而且管理多个平台也增加了操作和安全的复杂性。
  虽然很多企业会整合到较少的数据平台上,并将其作为一种战略,但他们也必须考虑服务、工具、合作伙伴关系和培训,以便在多个数据平台之间提供更好的支持。

3.投资于数据目录


  由于大型企业不太可能把数据集中在一个数据仓库或者数据湖中,因此建立数据目录的必要性在战略上就变得更加重要了。
  数据目录有助于最终用户搜索、识别和了解更多可用于分析、机器学习实验和应用程序开发的数据存储库。数据目录还提供了一个中心点,用于管理访问策略、发布数据源的状态,还支持最终用户与领域专家之间的协作。
  Cloudera、SAP和Infoworks都具有数据目录功能,作为其产品的一部分。

4.为作业选择合适的数据集成平台


  10年前,争论的焦点在于是否投资ETL平台,然后是投资于哪一个,而今天的问题则是更广泛和更具战略性的。这是因为今天的数据集成涵盖了比ETL支持的批处理功能更广泛的应用情形。当今的很多企业有:
  ·物联网和其他实时数据处理的数据流需求,通过Apache Kafka、Apache Spark等平台和VantIQ等事件驱动的架构来满足。
  ·文档和其他非结构化数据处理需求,通过MarkLogic数据汇集平台或者文档存储(例如,Apache Lucene、Apache Solr和MongoDB)来满足。
  ·数据科学家和业务分析人员的数据准备需求,使用Tableau Prep、Alteryx Designer和Trifacta Wrangler等工具来满足。
  ·API与SaaS平台和企业数据源的集成需求,通过Boomi和MuleSoft等平台进行优化。
  ·提高数据质量和创建主数据源的需求,这些主数据源是使用Informatica、Talend、IBM、Reltio、Tamr等其他平台创建的。
  然而,没有一个通用的平台可以支持所有这些应用情形。此外,通过为作业选择合适的工具,可以更有效地实现数据集成,并提供更可靠的支持。这可能意味着,希望能满足多种数据集成需求的企业将不得不通过几个数据集成平台才能获得成熟的功能。

5.利用每一项新功能主动进行数据治理


  虽然首席信息官、首席信息安全官和首席数据官更希望在采用新业务功能之前先进行数据治理,但这是一种不现实的战略。需要进行分析以实现数据驱动决策,并获得更多竞争优势的企业必须快速行动,把治理做为先决条件,但在进行这方面的尝试时会遇到阻碍。
  对于那些负责保护企业数据资产、隐私政策和机密信息的高管来说,这确实是个棘手的问题。
  然而,首席信息官和首席数据官有可能在采用新工具、功能和数据源的同时实施数据治理。这要求引进人才,以了解接受投资平台的数据治理能力,并建立引入和管理数据源更改的程序。
  如果没有这些规则,首席信息官们将会面临数据债务,类似于技术债务企业随着时间的推移积累起来的债务。
  好消息是,首席信息官们将在面向企业的成熟数据平台上获得数据治理能力。然而,拥有技术能力只是一个开始,首席信息官還需要技术人才、培训计划和变革管理实践,以使业务部门理解并遵守数据治理。

要成为数据驱动型的企业,应不断追求卓越


  我不太喜欢“数据就是新油田”这种比喻,但不妨先这样想。石油公司不仅购买钻机,还神奇地拥有端到端的机制,可以高效地找到油田,并将石油运往炼油厂。这不是那么简单,同样的,数据管理、分析和机器学习也不是那么简单。
  然而,只要企业负责任地投资于满足其应用情形的平台,投资于人才,并在数据集成、管理和治理方面完善其实践,这一切也并非难事。
  Isaac Sacolick是《数字化驱动:通过技术进行业务转型的领导者指南》一书的作者,该书涵盖了很多实践,例如敏捷、开发运维和数据科学等,这些都是成功实施数字化转型计划的关键。
  原文网址
  https://www.cio.com/article/3441780/5-technical-capabilities-required-in-modern-enterprise-data-strategies.html
其他文献
在前人研究的基础上,首先概述了物流供应链管理,然后阐述了旅游物流供应链管理及其与旅游产业特征的关系,最后描述出了典型的旅游物流供应链.
采用室内生物活性测定的方法,通过测定黑麦草的出苗率、叶色、株高和地上部鲜质量等生理指标,研究Barricade除草剂残留土壤后对黑麦草的药害。试验结果表明:Barricade除草剂残
论述了厦门湾附近水域船舶定线的目的.利用厦门海事局VTS中心的设备进行了连续3天的交通流实态观测及海上交通事故的统计分析,得到厦门湾附近水域的船舶交通特点,根据海上交
“基本课型教学行为设计”是为解决课改中出现的课堂教学行为与课改理念脱节的问题而提出的,它基于特定课型必然有特定教学过程结构的理论,主张以学定教,强调可观、可测的行
随着服务的不断丰富和发展,服务业已经成为现代经济增长的重要推动力量。近年来,随着人们对自助服务的强烈需求,一种便利且有效的服务形式——自助服务终端应运而生,各大企业
乙肝的病原学诊断最常用的是乙肝病毒血清标志物(HBv)检测。通过检测可间接的多角度了解患者HBV感染、复制以及病情恢复情况。本组资料分析旨在探讨乙肝血清标志物阳性组合的分
成都市温江区人社局在全市率先试点城乡居民医疗保险微信缴费,让数据'多跑路'、让群众'少跑腿',切实将人社服务送到群众手里。成都市温江区人社局以'建
教育观念是教师行为的先导。我国教育改革要卓有成效,就必然要求教师适应时代发展需要,清晰认识教育观念的内涵与谱系,准确把握教育观念对教育因子的影响,从而自觉促进自身教
【中国新闻网】据美国《世界日报》报道,新学期刚开始,中国学生的留美浪潮在美引发关注。
这篇论文从刘禹锡创作《竹枝词九首》与《杨柳词九道》的创伤目的,题材及表现方式的相异之处进行论述,从中可以看出刘禹锡民歌创伤的伟大成就。