Dataops正在改变数据、分析和机器学习

来源 :计算机世界 | 被引量 : 0次 | 上传用户：xiaomay2

【摘要】

：

【作者】

：

Isaac Sacolick

【出处】

：

计算机世界

【发表日期】

：

2019年27期

【关键词】

：

数据数据流团队质量数据库工作

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　Dataops团队将帮助我们充分利用数据。以下内容为我们展示了人员、流程、技术和文化是如何整合在一起的。
　　你是否注意到大多数企业都在尝试着利用自己的数据做更多的事情？
　　企业正在大力投资数据科学项目、自助式商业智能工具、人工智能项目等以提升由数据驱动的决策工作。其中，部分企业通过将数据可视化嵌入到Web和移动产品中，或者从传感器（物联网）、可穿戴设备和第三方API收集新型数据的方式开发面向客户的应用程序。还有部分企业正在利用来自文档、图像、视频和口语等非结构化数据源的信息。
　　围绕数据和分析的大部分工作都是从中获取价值。这包括用于决策的仪表盘、报告和数据可视化，由数据科学家创建的用于预测结果的模型，或整合了数据、分析和模型的应用程序。
　　基础数据运营工作（即Dataops）需要在数据做好供人们分析和格式化写入应用程序以提供给最终用户的准备工作之前完成。但是这些工作的价值往往会被低估。
　　Dataops包括汇集、处理、清理、存储和管理数据的所有工作。为了描述数据集成、数据处理、ETL（提取、转换和加载）、数据准备、数据质量、主数据管理，数据屏蔽和测试数据管理等不同功能，我们使用了一些复杂的术语。
　　就像汽车并不仅仅是各个零部件的总和一样，Dataops也是了如此。Dataops是数据管理实践中一个相对较新的总称，其目标是使数据用户（包括管理人员、数据科学家、应用程序）能够成功地从数据中获取业务价值。
　　Dataops如何与其他技术实践协同工作
　　Dataops汇聚了众多灵活工作方法的诸多特点，推动了数据处理指标和质量的迭代改进。与此同时，它还具有devops的优点，尤其是在自动化数据流方面，能够更为频繁地调整数据处理功能，在响应数据运营事件时可缩短恢复时间。
　　Dataops甚至还发布了一个DataOps宣言，其中包含了20项原则，涵盖了文化（不断满足客户）、团队动态（自发组织、每日互动）、技术实践（创建一次性环境）和质量（监控质量和性能）等众多方面。
　　你可能想知道为什么需要这一术语。答案是它们简化了语言并针对关键业务功能定义了角色，这样有助于推动投资，调整团队，围绕业务目标确定优先事项。更好地理解这一新术语的方法是围绕人员、流程、技术和文化进行定义。
　　Dataops对人员的分类
　　在人员方面，有几个与Dataops相关的角色：
　　客户是所生成的数据、分析、应用程序和机器学习的直接受益者。他们可以是实际的产品客户，或使用服务的客户，也可以是企业内部的客户，例如使用分析进行决策的高管和领导者，或者作为业务流程的一部分而使用数据的员工。
　　数据最终用户包括数据科学家、仪表盘开发人员、报表编写人员、应用程序开发人员、公民数据科学家，或是使用数据并通过应用程序、数据可视化、API等工具提供结果的人员。
　　直接从事数据运营的人员，包括数据库工程师、数据工程师、管理数据流和数据库工具的开发人员。
　　负责数据质量、定义和链接的数据管理员。
　　企业所有者通常是数据服务的购买者，他们会围绕采购、资金、创建策略和处理（数据供应链）做出自己的决策。
　　定义数据流、开发和操作流程
　　Dataops有许多流程和规则，它们的成熟程度和投资在很大程度上依赖于业务需求的性质、数据类型、数据复杂性、服务级别和合规性。
　　一方面，Dataops代表从源到传递的数据流。这是通过Dataops开发和操作流程管理的制造流程。数据流或数据管道的开发可以基于不同的数据集成技术、数据清理技术和数据管理平台。这些流程不仅可以引入数据，还可以为数据管理员提供工具，以管理数据质量和数据规则中的例外情况，启用数据志和其他的元数据功能，以及执行数据归档和删除程序。
　　Dataops的第二个方面是开发过程，通过该过程可以維护和增强数据流的各个方面。开发过程包括几个阶段：沙箱管理、开发、编排、测试、部署和监控。其中，编排、测试和部署阶段类似于devops CI/CD管道。
　　Dataops流程还涉及操作和管理基础设施。与devops一样，这项工作中的一部分与管理生产数据流，确保可靠性、安全性和性能密切相关。由于数据科学工作流程具有很大的易变性，尤其是机器学习，因此开发出可扩展性、高性能和数据科学环境以支持不同工作负载也更具挑战性。
　　Dataops技术的前景
　　Dataops涵盖了大量的数据编排、处理和管理功能，所以很多技术都适用这个术语。此外，由于许多企业正在投资大数据、数据科学和机器学习，因此厂商在这一领域内展开了激烈竞争。
　　亚马逊网络服务（AWS）拥有普通的关系型数据库、文档存储和键值数据库等7种类型的数据库。Azure也提供了多种类型的数据库。
　　大量工具集都集成了数据并创建了数据流，包括数据集成和数据流。数据流中又存在数据质量与主数据管理。
　　许多工具与Dataops的开发、数据科学和测试密切相关。虽然许多组织机构使用的是Jupyter，但是数据科学工作存在其他选项。例如进行测试可以考虑Delphix和QuerySurge等工具。
　　 Alteryx、Databricks、Dataiku和ai可提供端到端的分析和机器学习平台。这些平台融合了数据集、数据科学和devops功能。
　　其他工具可处理数据安全性、数据屏蔽和其他数据操作。
　　竞争正在推动数据库文化
　　应用程序开发团队和运营团队之间的矛盾催生了devops，前者为了加快流程不得不频繁发布代码，而后者为了确保可靠性、性能和安全性会很自然地放慢速度。devops团队很好地调和了这一矛盾，促进了对自动化，如CI/CD、自动化测试、基础设施即代码以及集中监控的投资，帮助弥合了技术隔阂。
　　Dataops是另一个新生事物。数据科学家、仪表盘开发人员、数据工程师、数据库开发人员以及其他工程师可共同致力于数据流和数据质量。除了管理版本发布的速度以及基础设施的性能、可靠性和安全性之外，Dataops团队还可以提升数据、分析、机器学习模型和数据交付的竞争价值。
　　竞争价值取决于整体分析工作的可交付成果和Dataops 团队解决复杂数据处理的方式。数据在数据流中的运行速度有多快？支持多少数据量和什么样的质量等级？团队集成新数据源的速度有多快？数据库平台是否能够支持不断增长的各种数据建模需求？
　　这些只是Dataops 团队必须解决的一些问题和性能指标。随着越来越多的组织机构通过数据和分析投资来获取业务价值，这也对Dataops 实践和文化提出了相应的需求。
　　本文作者Isaac Sacolick为《推动数字化：通过技术实现业务转型的领导者指南》一书的作者。该指南介绍了许多关于敏捷性、devops和数据科学的实践，对成功的数字化转型计划具有重要的指导意义。
　　原文网址
　　https：//www.infoworld.com/article/3403665/how-dataops-improves-data-analytics-and-machine-learning.html

其他文献

云计算的7种变化方式

“云”这个词是IT人员在稳定信心时经常使用的万能词语。就像政客们陷入困境时，他们喜欢说解决问题的方法是“教育”，医生们在回答患者的提问时会不假思索地说出“休息”这个词一样。在过去的十年或更长的时间里，从实习生到首席信息官，IT部门的每个人似乎都知道，“云”适用于所有的问题。　　不过，这个词也隐含着大量的复杂和混乱，因为多年来它们有着千差万别的含义。在云这个词流行起来之前，大型机公司就已经在销售分时

期刊

用户代码亚马逊数据库应用程序函数

国际共运与中苏关系

[摘要]本文利用迄今为止美国业已解密的情报档案和相关文献，以新中国成立后至1960年代中苏关系的发展演变为主线，论述美国中央情报局在中苏结盟与合作、中苏分歧与争论以及中苏分裂与对抗三个时段中，对国际共运的总体态势及其发展前景等所作的预测与评估，并就其判断依据和研究结论加以进一步的分析与解读。　　[关键词]国际共运，中苏关系，美国，情报评估　　[中图分类号]K1[文献标识码]A[文章编号]0457—

期刊

苏联美国中苏国际斯大林情报

从西班牙历史看“民族国家”的形成与界定等

“世族国家”是一种国家形式，同时也是近代以来形成的一种政治属性的民族，可称为“近代民族”。它与其他那些传统意义上的自然属性的民族有明显区别，主要特征在于：其规模相当于一个主权国家，而不像自然属性的民族那样不是大于一个国家就是小于一个国家；其主权属于人民，而不能属于任何个人或其家族。它诞生的标志不是“国家统一”而是资产阶级革命或改革。19世纪以前，国家统一之后所产生的往往是中央集权的专制王朝国家，而

期刊

新文化运动商团西藏民族中国近代

2021年IT领导人的五大战略优先事项

CIO们在准备为全球新冠疫情肆虐的去年做总结时，许多人对未来仍然抱着非常乐观的态度。　　你没有看错，确实很乐观，这是由于大多数CIO充分利用数字化技术来增强员工体验和客户体验，以加大他们在2020年推波助澜的发展势头。　　毕马威（KPMG）的CIO咨询业务负责人Steve Bates援引来自Harvey Nash/毕马威2020年CIO调查的数据称，61%的CIO表示，由于竭力帮助本企业抵御疫情，

期刊

技术疫情边缘数据企业员工

混合云/多云时代的网络监控

大多数企业现在使用两家甚至更多的云服务提供商，35%的企业使用多达五种监控工具来监视混合云和多云环境。要实现全网可视化，有哪些最佳方法？　　企业中的网络监控一直都是个大问题。据分析和咨询公司企業管理协会（Enterprise Management Associates），即使企业还没有把软件和基础设施迁移到云端，一家企业一般也会使用四到十种工具来监控自己的网络，并排除故障。　　在公有云环境下，网络

期刊

工具网络环境企业提供商云和

首席信息官在疫情中重塑IT文化

從新冠疫情爆发的最初几天起，IT领导们就不得不忙于应对各种意想不到的情况——从数千名员工转移到在家办公（WFH，Work-From-Home）环境，到几乎一夜之间推出支持虚拟团队的平台……等等。对很多企业来说，文化已经被证明是他们能够渡过这段艰难时期的关键支撑因素。　　企业如果在疫情之前还没有建立起一种具有弹性、注重变革的文化，在全球停摆导致业务中断的大环境下，这些企业的确是举步维艰。而那些已经转

期刊

疫情员工企业她说文化部门

2021年值得关注的4大安全趋势

2020年，新冠疫情给安全部门制造了困难。勒索软件攻击在增加。远程工作被迫中断，安全进程也被削弱。首席信息安全官不得不调整其短期和长期计划。2021年会好一些吗？　　会有所不同，但有些情况可能会变得更糟。首席安全官一直在关注4个关键趋势，以预测这些趋势在2021年怎样发展。所有这些都是由这场疫情所造成或者所影响的，这将对威胁局面以及安全部门怎样保护员工和资产产生长期影响。勒索软件：更大，更卑鄙，更

期刊

首席信息安全疫情赎金数据软件

医疗行业的数字化未来

数字化革命已经在许多领域内产生了重大影响，如今医疗行业也正在努力跟上数字化革命的步伐。医疗行业的高管已开始逐步利用这一革命性技术来重塑患者护理。　　败血症是一种由感染引发的能够危及生命的并发症。Lehigh Valley健康网络（LVHN）的主要业务是防止患者因败血症而死亡。目前，该机构正计划使用计算机系统为其提供一些帮助。　　位于宾夕法尼亚州阿伦敦市的医疗保健系统技术团队已经与临床方面的同事共同

期刊

行业医疗患者技术的人败血症

IT领导们的新年新挑战

过去一年的动荡不安导致IT专业人士2021年将在工作环境上面临前所未有的挑战。没有路线图可以让大部分美国员工一夜之间远程工作，也没有路线图能让他们大规模、交错地回到面对面和远程工作的混合环境中——而这是大部分企业希望在未来几个月内能够实现的。　　除了为新的工作环境打下技术基础之外，IT领导们今年还将面临很多疫情引发的其他挑战，有些是这个远程协作时代所特有的，而有些则会一直存在，例如预算平衡和人才储

期刊

工作员工企业技术环境首席

10个热门的数字化转型趋势，其中4个正在变冷

数字化转型目前被认为是提高利润的关键所在，从平台优先的策略转而向利用新兴技术服务于明确的客户，并实现运营目标。　　数字化转型已经不再是可有可无，而是开始实用了。数字化转型曾是早期采用者和前沿企业的首要任务，目前已成为主流。相当一些人认为数字化转型计划对其企业的成功至关重要。　　事实上，在“2017年度大咖调查（2017 Constellation Research）”中，64%的受访者认为数字化转

期刊

受访者企业患者基础设施云中他们的

Dataops正在改变数据、分析和机器学习

与本文相关的学术论文