如果您的数据湖变成了数据沼泽,那么是时候采取措施了

来源 :计算机世界 | 被引量 : 0次 | 上传用户:zjzzhength
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  与德勤的分析实践领导讨论常见的分析问题和新的解决方案
  编译 charles
  作为Deloitte分析实践的领导,Paul Roma指导公司所有业务的分析产品,所以他了解公司要应对的一系列问题。《网络世界》总编辑John Dix最近和Roma讨论了公司面临的分析问题(提示:上面提到的沼泽),帮助提取更多价值的工具(认知分析和机器学习),还有不断发展的执行管理角色(标题并不重要,重要的是问题归谁)等很多问题。
  客户通常希望您解决什么问题?他们想要解决一个具体的问题,还是更大的问题,关键的分析问题?
  一般而言,我们的工作是要得到具体的业务成果。客户可能希望提高他们的消费者净推广得分(NPS,Net Promotion Scores),这是对消费者与某一公司及其产品的关系进行评分的行业标准。它之所以称为净推广,因为它是启发式的,把几个因素综合在一起,并建立一种方式来判断您自己。再比如,医疗机构可能来找我们,帮助他们改进某些医疗保健协议的结果,所以我们通常谈论的是业务成果。
  通过访谈,您发现公司有他们需要的分析工具,或者他们也在寻找新技术输入吗?
  较大的客户会拥有分析工具。我们到访的公司中没有一家是什么都没有的。问题更多地集中在使用上,而不是数据短缺,因为他们有大量的数据。现在,经过多年的积累,一般都会有汇总起来的数据仓库或者数据湖。但是,我已经看到数百万美元花在了数据湖上,实际成为我所谓的数据沼泽。他们花了所有的钱把一切都放在一起,而不对其做任何事情。现在的主要问题是怎样使用数据获得更好的结果。
  考虑到有这么多的数据和许多挖掘数据的各种工具,您打算怎样帮助客户向前推进呢?
  我提供三种方法来思考它。首先,如果您是基于结果,那么您会面对某些问题来解决问题。如果我想改进消费者关系,或者如果我想改进医疗保健的结果,那您至少是基于您想做什么。在分析数据时,经验会引导您创建某些域,并采取非结构化数据湖,开始应用结构化边界。
  一旦做好了,您就可以开始使用更高级的工具,例如认知分析工具,在数据湖上应用结构,使用自然语言处理和机器学习,从数据中得出推测。
  先进的技术已经不仅仅是提交报告,然后查看图表,了解其含义。现在,机器学习实际上可以创建因果分析,告诉您哪些变量的前提是什么,或者哪些数据域对特定结果最有影响。例如,在医疗保健中,机器能够说明为什么某一规程的重新住院率较高。因果分析导致这类分析。
  先进的技术可能最能帮助我们去理解所有数据。没有先进的技术,就没有办法深入分析。没有工具来深入分析数据,只是运行报告会产生无尽的纸张,坦率地说,您永远不可能让任何人理解。
  我们在很多业务中采用了定制的算法——无论是在医疗保健、供应链还是客户营销上,还采用了机器学习算法和监督学习周期工具,我们可以针对他们的数据运行这些工具,得出推测,您可以凭借经验来研究这些推测。
  有趣。这些算法适用于纵向市场,建立这些算法有没有一个共同的基础?
  我们有水平和纵向市场。纵向市场调整到制造业中的供应链或者消费品中的供应链,以及生命科学领域的治疗方案等市场,而水平市场始终不变。(后者的一个例子)是我们获得专利的稀疏矩阵完成算法。如果某一特定问题的数据湖并不足以满足您需要的所有变量,它运行预测算法来填充它,并创建关于趋势的假设。我们按照与大型医疗保健公司的糖尿病协议来运行它,准确性达到93%,我们可以推测出谁不符合他们的糖尿病协议,而且并不需要与其相关的任何合规数据。
  这意味着您可以推测出谁没有做自己应该做的事情?
  是的。例如,有人没有称重,有人没有做运动。它不能准确预测他们没有做什么,因为我们刚刚开始,但它可以预测谁不合规。我们希望将其准确度提高到90以上,然后我们将能够审查整个医院系统,因为在这一点上变得可以预测。在出现合规问题之前,您可以看到趋势得分。这个人有可能不合规,然后您可以让护士给他打电话,问他,您吃胰岛素的时候遇到麻烦了吗?您没有做运动是有什么原因吗?您没有去看医生,是因为您乘车遇到问题了吗?您可以开始寻找治疗方案中的具体问题,以尝试提供帮助。
  这是您合同结束后留下的吗?
  过去四年里,德勤已经成为产品和软件提供商。这是我以前努力的结果,为我们的公司开发出产品和解决方案,所以我对此非常熟悉。我们现在提供软件即服务产品,如果您愿意,我们会留下安装解决方案。我们都能做到。这不过只是涉及到我们要解决哪个问题——哪个是最有意义的,哪个是最经济的。
  这类分析的促因来自于企业内部?
  我认为最强的促因来自于业务部门,而不是董事会。我们为管理人员提供了很多工具,但通常您从业务主管开始,成功后,业务主管将其呈现给CEO和董事会,它变得更受欢迎,通常再应用到下一个业务部门。
  我和一家金融公司的首席數据官谈过话,他告诉我,当他们开始一些大数据工作时,他们必须对关键客户数据的一系列差异进行协调。这对于很多企业而言是不是很典型?
  是的。老实说,管理好数据似乎永远有问题。用于管理数据的工具变得越来越好,但是数据产生的速度太快,超过了工具的能力所及。这是一个非常典型的问题,是一个关键的方向性问题。它几乎成为每个问题的核心。
  对于首席数据官——首先出现在金融领域的职务,但似乎更多的行业也出现了这一职务。随着对分析的重视程度的提高,您会看到有新角色出现吗?
  绝对有。在某些企业中,首席营销官就是首席数据官。在其他企业中,首席数字官是拥有数据的人。我们首先要理解的第一件事是,谁拥有它,在哪一级别拥有的,什么级别的管理层真正的拥有数据。我们不需要鼓励每家企业都有CDO。我们鼓励的是数据适当的所有权和管理权,这样可以优先处理数据。   大多数客户解决这种所有权问题了吗?
  一半一半。我要说的是,有一半的情况是,公司正处在这一过程中,他们会有一个路线图,其中会说明要通过哪些方式来提高数据安全性,通过哪些方式来改进先进的分析方法,他们会讨论如何让客户更好的掌握数据。
  另一半在各方面还没有路线图,在这些情况下,我们通常建议把很多这类计划放到一起,从供应链到营销、制造、金融等等,都可以努力得出更好的业务结果。把计划放在一起,组织起来使用会更划算。
  谈点别的,这些新的物联网投入有没有带来其他的大数据问题,没有吗?您看到了什么?
  我们现在有相当大的物联网实际应用,需求迅速攀升。从它是一个数据问题来说,我们参与其中是因为某些成果策略存在问题,因为物联网项目通常比较昂贵而且耗时,很少有进展很快的项目。在过去的3到5年里,我们看到公司不断投入,并没有得到他们想要的回报。现而在的技术便宜得多,更好用。从我们的角度来看,我们认为它现在已经准备就绪了,取决于使用情况,我们看到了需求,有的正在实施,实现了投资回报。
  还有没有任何其他重要的事情,我在这里没有想到的,但却急于解决的?
  我们没有谈到的一个趋势是认知。您如何构建直观的系统,我可以采用它,开始像我们一样思考,开始理解口语,开始理解图像和图片?
  谷歌预测,在未来三年内,超过50%的搜索是以音频、图片和视频的形式出现的。让我说的话,他们错了一年。让我说应该是四年。这种变化仍然非常大,将渗透到业务,渗透到我们的流程,渗透到应用程序中。
  我们的企业系统解释口语和非结构化数据的能力以及以这些方式与我们互动的能力正在快速发展。我们有很多这方面的项目。它是很多行业中巨大的投资领域。
  具体而言?
  第一是医疗保健,其次是金融服务。但所有行业都会有投入,包括酒店和休闲业,这是因为消费者的参与。由于客户的参与,酒店业一直是消费品的巨大用户。我会说,您参与的程度越高,这些技术对您的帮助越大。
  医疗保健领域有什么例子?
  一个很好的例子,我们采用了其中的几个,使用认知技术建立一个实际案例,获取电子病历、药房处方记录、家族病史和健康风险评估,并在入户之前为医生编辑好这些内容,突出显示它们,“您需要看看这部分血液差异(这基本上是一次血液测试),因为LDL超出范围,大细胞是有问题的”,开始实际分析并提供建议。
  然后医生可以反问:“你能给我推荐药物吗?”它会给出建议——“我会推荐这种药物,但不会使用这个,因为家庭病史有X类型过敏反应,因此这种药物禁止使用。”
  机器可以在实时对话中给您提出这些建议。机器建立了一个认知链,允许您进行各种对话,它学会如何跟随医生,推断他们会问什么问题。第一次使用它时,它并不会去查看所有药房处方,提出建议。但是当医生每次都问时,它会将其添加到告诉医生的第一件事情中,随后它会做到这一点。没有任何人编写软件,系统开始变得更聪明。您训练它而不是开发它。坦率地说,这一趋势颠覆了我们的参与方式,也颠覆了我们的开发方式,以及我们考虑系统及其应用的方式。
  (作者John Dix最早是在IDC從事网络和分布式处理开发,1986年帮助创刊《网络世界》,随后就职于《计算机世界》。)
  原文网址:
  http://www.networkworld.com/article/3159555/big-data-business-intelligence/if-your-data-lake-turned-into-a-data-swamp-it-might-be-time-to-take-the-next-step.htmll
其他文献
随着云计算大行其道,DevOps的价值更加凸显。  “接到产品后,运维部门每个人的心中都充满了恐惧。”一位运维产品经理如是说。运维产品经理将自己的恐怖之源归结为——软件开发部门送来的产品在现有底层平台上无法运行,产品体系结构跟现有的存储、网络、部署或者安全模型不匹配等几大原因。  然而,开发部门也有自己的苦衷,“客户要求一款软件产品使用最新的技术和运行平台,还要能马上交付。开发部门只能没日没夜地加
如果没有计划,您就是盲目飞行。这里列出了您应该遵循的9个步骤。  在开发应急响应(IR,Incident Response)计划时,细节非常关键。但是,即使是最成功的IR计划也可能缺乏关键信息,导致不能很快的恢复正常业务运营。  Cybereason的这一指南深入介绍了九个经常被遗忘,但是非常重要的步骤,您应该将其纳入您的IR计划中。  整个公司都要做好准备  一名优秀的安全领导应能让全公司的员工
[摘要]清末“新政”时期,官方为了维护社会治安,改良社会风习,同时也为确保其统治的稳固,对“私设神坛”、迎神赛会等迷信陋俗进行治理,并得到民间的呼应,取得一些成效。但由于迷信陋俗相沿已久,积习难以骤然革除,加以它在官场依然盛行,这样,使之虽有限禁但难收戒除良效。  [关键词]清末,官方,迷信陋俗,治理,成效  [中图分类号]K25 [文献标识码]A [文章编号]0457-6241(2007)04-
通过对20世纪50-70年代初中国对外战略的历史考察,可以发现中国对日邦交正常化战略发挥了关键作用。中国政府在防止日本军国主义复活原则的基础上,首倡“以民促官”及“官民并举”的基本方针,提出正确对待历史问题并放弃战争赔款,并采取“先美后日、以美促日”的外交战略于1972年实现了中日邦交正常化,取得了继中美发表《上海公报》后的又一外交胜利。虽然中国对日邦交正常化战略在实施过程中历经曲折,但它兼具現实
今天的CIO会感觉自己就像是马戏团的表演者,同时处理多个项目,还要确保没有一个项目失败。疫情使这个问题显得尤为紧迫,一方面是公司要求在家工作,另一方面又需要加快数字化转型。然而,当全世界开始在疫情后恢复过来时,随着远程工作、安全、数字化转型、自动化及其他紧迫的项目开始需要重新关注和迅速完成,同时处理多个项目很快会变得更迫切。  由于压力会变得很大,现在制定策略,规划好如何在不牺牲时间、预算或质量的
在长沙举行的华为中国生态伙伴大会2017上,华为强调,要通过平台和生态的双轮驱动来做大产业蛋糕。  刚刚结束的华为中国生态伙伴大会2017,是华为进入企业业务市场以来的第七届伙伴大会。“7”在数字中一直有着特殊的含义,月亮的运转周期是28天,以7天为一个阶段,世界上有七大奇跡;在古希腊,7是完美的数字,它是3和4的和,代表着三角形和四边形,这两种形状在希腊是完美无缺的。  不同于前六届的“合作伙伴
起初有文件,后来有基于结构化文件的导航数据库,然后出现了IMS和CODASYL。大概40年前,出现了首批关系数据库。在20世纪八、九十年代的大部分时间,“数据库”严格意义上指“关系数据库”。SQL(标准查询语言)占主导地位。  后来随着面向对象编程语言日益流行,一些人认为,解决面向对象语言和关系数据库“阻抗不匹配”的办法是在数据库中映射对象。因此,我们最后迎来了“面向对象的数据库”。对象数据库方面
为了让供应链更具有可见性和更为高效,同时避免供应链出现中断,公司正逐步将物联网添加到他们的物流业务中。  当打开Uber应用时,它们会向你显示司机的照片,为你提供车辆的描述,同时还会向你展示地图,便于你查看自己的乘车位置。此外,假如司机需要一些帮助才能找到你,你还可以直接与司机沟通。  这种可见性正在进入到全球的供应链中,这样卖家和买家就可以跟踪他们在世界各地被运输的集装箱、货盘、箱子,甚至是高价
多云管理工具有望使得不同的环境变得有序,方便进行控制和深度分析。  企业把更多的云工作分散到众多的云提供商平台上,这让很多IT和网络管理人员感到不知所措,因为每家云提供商都有自己的工具集、规则和用户需求。在多云环境中,这种错综纷乱的情形很快就会让企业深陷复杂、混乱和成本的泥潭。  从IT中坚企业到初创企业,供应商们纷纷前来救援,提供多云管理工具,旨在让提供多种云服务的数据中心变得有序,方便进行控制
[摘要]二战后越南华人政策的演变过程中,中越关系、越南党和国家的中心任务以及越南民族主义等因素始终支配或影响着不同时期越南华人政策的制定,但随着中越关系的正常化和越南华人本地化进程的完成,越南国内经济发展战略成为目前及未来决定政府华人政策导向的首要因素。  [关键词]越南,华人政策,影响因素  [中图分类号]K25 [文献标识码]A [文章编号]10457—6241(2007)09—0077—