克服预测性分析难题的7条建议

来源 :计算机世界 | 被引量 : 0次 | 上传用户:wangyizhinihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  预测性分析是一款功能强大的工具,但有一件事情它无法预测,那就是用户在部署和使用该技术时遇到的问题。本文提供了一些帮助。
  W. Edwards Deming是最早将统计技术和预测性分析应用于业务流程的先驱人物,他很好地诠释了这一点。他曾说过:“最大的问题就是人们一开始没有意识到自己有问题。”
  当涉及到预测性分析时,“最大的问题”在规划和早期部署阶段往往并不明显,只有当随着时间的推移,技术未能達到预期的结果时才会成为问题,引起关注。
  边缘设备分析软件开发商SWIM.AI的首席技术官Simon Crosby认为,由于糟糕的规划和不切实际的期望,导致出现了很多常见的预测性分析难题。他解释道:“预测性分析不是一个神奇的魔杖,对着复杂的系统或者组织挥一挥就能够自动地进行改进。深入了解企业所拥有的深度分析,选择一款工具集,可以让你能够快速形成假设,动态地将分析注入到数据流中,寻找相关性或者异常,也可以预测未来的表现。”
  以下是成功的预测性分析采用者需要避免或者解决常见项目难题的7条建议。
  1.建立并执行正式的战略
  “即兴发挥”绝对不是预测性分析的最佳方法,预测性分析可能是目前日常使用的最先进、最复杂的企业技术。风险管理咨询公司CBIZ的高级经理Scott Moody建议:“建立预测性分析战略的第一步是确定要完成的目标和目的。”例如,部署是否旨在增加销售额?它能检测到欺诈和/或识别风险区域吗?他指出:“在制定战略时,始终牢记最终目标,将有助于把工作重点放在具体要实现的战略目标上。”
  Culminate战略集团负责人Karrie Sullivan建议先进行一次盘点,将来自各个业务部门的相关数据源汇集起来,以确定企业预测性分析准备工作的总体状态。她说:“注意体量、历史、格式,以及相邻系统/进程的重叠,等等。”
  最后,在关键业务领域部署预测性分析之前,先进行一些非正式测试,以了解该技术怎样用于预测实际的业务状况。在市场营销或者客户服务等往往会产生大量数据的领域开展实验。Sullivan解释道:“这一步的目标是让每个人都能理解预测性分析能够干什么。”
  2.保证数据质量
  富有洞察力的预测性分析需要可靠的数据。不准确的数据实际上导致了错误或者误导性的结果。Moody说:“确保数据质量的第一步是当数据输入系统时,有高效的自动输入控制功能。”
  Moody说,当数据质量超出企业控制范围时,比如从外部提供者那里获取数据,评估数据质量应该是分析过程的第一步。他告诫说:“如果后期才发现数据的质量问题,那么在验证和纠正数据质量问题之前过度深入的分析会导致大量的返工。”
  不过Crosby也认为,如今的企业不必像过去几年那样对数据质量过份挑剔了。“幸运的是,目前不再要求数据非常清洁,甚至不需要完全理解。我们可以使用学习功能来自动推断‘灰色数据’的情况。”Crosby指出,真正重要的是尽可能多地获取原始数据。“所以,你需要检测自己的系统,收集大量的数据。”
  3.管理数据量
  虽然访问大型数据池通常是一件好事,但将大量多余的数据输入到预测性分析工具中可能会拖累关键的过程,而且存在着机密数据暴露给犯罪分子的风险。Moody解释说:“获取太多的数据可能会给我们带来难题,不知道怎样利用正确的数据进行分析。把数据清理好将有助于确保在执行预测性分析时使用正确的数据。”
  Sullivan认为,有效而且高效地管理大量数据的诀窍在于准确地理解哪些数据集可能是有用的,哪些数据集可以被安全地忽略掉。一名熟练的数据科学家最有资格做出这样的决定。她指出:“数据科学家有时能够发现被大多数人当成干扰的数据中的价值。”
  4.尊重数据隐私/所有权
  面对越来越多的公众和政府审查,企业现在面临的保护数据隐私和所有权的难题比之前更为棘手。预测性分析采用者也不例外。一种推荐的做法是限制文件访问和仅使用专门用于分析的数据。Moody说:“识别个人的屏蔽字段也是尊重数据隐私的有效方式。还有很多不会去识别数据的工具,这减少了对数据隐私的担忧。”
  避免侵犯隐私最简单的方法是仅在必要的最短时间内保留数据。Crosby解释道:“快速丢掉那些暂时性的数据,但随时能够获得高价值的丰富的深度分析结果,这就避免了原始数据隐私问题。”
  5.尽可能提高可用性
  当从一开始就设计复杂模型以便生成易于理解的结果时,预测性分析技术工作的效果会最好。然而,情况往往并非如此。在现实中,企业通常发现自己要处理的结果是如此复杂和难以理解,只有数据科学家才能准确地解释它们。而另一种极端情况是,对结果的解释非常浅薄和简单化,以至于对各方几乎没有什么价值。
  为能够最大限度地提高可用性,重要的是在构建并部署用户界面时要考虑最终用户的需求。医疗保健预测性分析和机器学习公司LeaTaaS的创始人兼首席执行官Mohan Giridharadas说:“虽然底层模型可能非常复杂,但用户界面可以非常简单。”可以看看谷歌的网页搜索或者苹果的iPad来寻找灵感。Giridharadas观察到,“这些产品的用户体验几乎对于任何人都是友好的,但却隐藏了这些公司产品难以置信的软件和硬件复杂度。”
  Adobe分析云的集团产品经理Ben Gaines指出,预测性分析是一门迭代科学。一旦模型启动,这一事实就变得显而易见了。Gaines解释说:“你将开始看到模型表现得有多好,能够调整和重新校准它,以获得更准确和可操作的深度分析结果。”例如,预测性模型可以帮助企业预测趋势,包括设备间的预期流量,使用户能够预测每个页面的效果,并根据预计收入来设定预算和目标。他建议:“一旦知道了真正的效果,以及怎样调整预算和目标,就可以由此精确地调整模型。重要的是要明白,预测性分析程序并不能保证完全正确地运行——错误是不可避免的,但它会帮助企业更好地理解数据和模型。”
  6.控制成本
  在线信贷公司Marlette基金的首席决策科学官Arnold Pravinata指出,在大多数分析预算中,数据获取和工资支出是两个最大的项目。为了帮助控制数据成本,Pravinata建议定期进行检查,看看是否有任何资金被浪费在无用或者低效的数据上。他说:“对于人力资源成本而言,我们通常需要看好市场走向。”
  随着数据量的增长,存储成本也会迅速增加。Sullivan认为,保持成本最好的总体方法是集中数据并应用稳固的治理策略。她注意到,“我相信未来几年我们会更广泛深入地讨论预测性分析维护的自动化,但现在我们仍然面临很多困难。”
  7.选择合适的工具
  预测性分析市场正在迅速扩张,这意味着新的采用者将面对一系列令人眼花缭乱的平台和工具。很少有企业拥有能够在这些领域做出明智选择的人才。在企业内部建立这样的技能需要时间和金钱。因此,大多数企业在开发预测性分析计划时会寻求某种形式的外部帮助。在这样做的时候,重要的是要密切关注所推荐的产品和服务,并考虑它们能否适应企业的长期计划。Crosby建议:“应寻找那些不会将你限制在特定的分析算法或者学习堆栈上的解决方案。因为所有这些都是开源的,灵活的分析平台应该能够随着时间的推移动态升级到更新的、更先进的算法。”
  原文网址
  https://www.cio.com/article/3287937/predictive-analytics/7-tips-for-overcoming-predictive-analytics-challenges.html
其他文献
区块链目前已经进入到了Gartner“炒作周期”中的“幻灭低谷期”。最新的报告指出,数十个曾经被广泛引用的成功案例实际上被证明是失败的。  2018年秋季召开的MERL(监测、评估、研究与学习)技术会议的联合报告指出,研究人员研究了43个区块链使用案例后得出的结论是,所有的承诺都未能兑现。  而且,当研究人员向区块链提供商询问项目结果时,他们都选择了沉默。研究人员在他们的博客中称:“没有人愿意分享
工信部近日发文称,将推动工业数据全面采集,加快工业设备互联互通,推动工业数据开放共享,助力中小企业数字化升级。   中小企业数字化升级对经济社会转型意义重大,推动中小企业的数字化升级,关键则在于数据的互联互通。工信部提出,引导工业设备企业开放数据接口,实现数据全面采集。同时持续推进工业互联网建设,推动工业数据高质量汇聚,统筹建设国家工业大数据平台,研制产业链图谱和供应链地图,服务制造业高质量发展
AWS、谷歌云平台和微软Azure这三大公有云都开始提供边缘计算功能,这可能让人感到惊讶,因为“边缘计算”一词意味着微型数据中心,通常连接到物联网设备,并部署在企业网络的边缘而不是部署在云端。  而且三大云巨头只对边缘计算诸如位置、网络和基础架构之类的关键属性拥有部分控制权。它们能真正提供边缘计算功能吗?  答案是肯定的,不过公有云提供商正通过战略合作伙伴关系开发其边缘计算服务,存在一些早期阶段的
计算、存储、网络传输,信息技术的“三驾马车”。  “随着各种应用的发展,今后可能数据中心真的没有主次的分别了。”思科大中华区资深副总裁、产品事业部总经理魏松斌说。  据市场预测,到2022年,3/4的数据将在边缘被处理,只有1/4的数据到中心、到云里去处理,这个新的趋势就是数据的边缘化。  魏松斌说数据中心将没有主次之分,其实是指,无论传统意义上的数据中心还是边缘,有数据在被处理的地方就等同于一个
新兴的网络技术非常重要,至少在它们将要颠覆基本的日常网络服务和活动之前是这样。现在是考虑如何将SDN、SD-WAN、基于意图的网络(IBN)和网络功能虚拟化(NFV)等创新技术顺利部署到位的时候了。  网络性能软件提供商LiveAction的联合创始人兼首席技术官John Smith称:“部署这些新兴技术通常会导致网络出现一些中断。避免这种情况的最好方法是使用经过验证的技术而非全新技术。你自己也从
日前,国务院印发《新时期促进集成电路产业和软件产业高质量发展的若干政策》(以下简称《若干政策》)。  《若干政策》提出,为进一步优化集成电路产业和软件产业发展环境,深化产业国际合作,提升产业创新能力和发展质量,制定出台财税、投融资、研究开发、进出口、人才、知识产权、市场应用、国际合作等八个方面政策措施。  其中,财税政策以集成电路线宽和经营期为标准,做“阶梯型”企业所得税减免,最高一档为“国家鼓励
每一个客户的旅程都是独特的,每一个客户的接触點都很重要。  如今,任何一家公司都不只是单单卖产品的公司,如何通过客户体验去卖服务,成为广大公司的转型之路。低频消费的售卖席梦思床垫的公司,向买家提供可以监测睡眠质量的App与客户保持长期交互,并且向他们提供改善睡眠质量的解决方案;巴士汽车的生产公司,通过收集巴士公司的消费者运营数据来改良巴士车的设计。  目前,中国网民人数已达7.31 亿,其中一半以
Stack Overflow报告指出,Angular和JavaScript是这一年的主流技术  无论您是IT老专家还是有抱负的新人,都面对要跟上新兴科技以及迫切需要某些技术的巨大压力。  去年,DevOps技术和开源框架在技术排名表中有所上升,而几项需求最大而且增长最快的技术今年排名基本保持不变,排名表中排名靠后的某些技术出现了令人非常激动的变化。  在本文中,参考Stack Overflow的《
我在微软最先看到了前两代应用程序模型的转变。早期的大型机和微型计算机系统是一体式的,数据存储、应用程序代码和终端服务都在一个机箱里。20世纪80年代出现了微处理器和以太网,使得成本较低的计算机能够在局域网上协同工作和通信。PC和Unix工作站开始连接到服务器,在业务应用程序上采用了一种新的多机器、客户端-服务器编程模型。客户端-服务器应用程序出现时,图形用户界面与后端SQL数据库(通常是Oracl
尽管丹麦乃至整个欧洲,以及亚马逊都对一些事情保持着沉默,但是似乎有迹象显示他们遇到了一次黑客攻击或是一次成功的拒绝服务攻击。我是在2019年10月知道的,Google自动完成功能也会提示“AWS DDoS攻擊”。这些事情实际上会经常发生。  拒绝服务攻击的历史是否与互联网的历史一样悠久我们不得而知,因为数据中心运营商或托管服务提供商缺乏坦率的态度。过去,我们是通过防止整个网络被瘫痪来保护我们自己,