论文部分内容阅读
预测性分析是一款功能强大的工具,但有一件事情它无法预测,那就是用户在部署和使用该技术时遇到的问题。本文提供了一些帮助。
W. Edwards Deming是最早将统计技术和预测性分析应用于业务流程的先驱人物,他很好地诠释了这一点。他曾说过:“最大的问题就是人们一开始没有意识到自己有问题。”
当涉及到预测性分析时,“最大的问题”在规划和早期部署阶段往往并不明显,只有当随着时间的推移,技术未能達到预期的结果时才会成为问题,引起关注。
边缘设备分析软件开发商SWIM.AI的首席技术官Simon Crosby认为,由于糟糕的规划和不切实际的期望,导致出现了很多常见的预测性分析难题。他解释道:“预测性分析不是一个神奇的魔杖,对着复杂的系统或者组织挥一挥就能够自动地进行改进。深入了解企业所拥有的深度分析,选择一款工具集,可以让你能够快速形成假设,动态地将分析注入到数据流中,寻找相关性或者异常,也可以预测未来的表现。”
以下是成功的预测性分析采用者需要避免或者解决常见项目难题的7条建议。
1.建立并执行正式的战略
“即兴发挥”绝对不是预测性分析的最佳方法,预测性分析可能是目前日常使用的最先进、最复杂的企业技术。风险管理咨询公司CBIZ的高级经理Scott Moody建议:“建立预测性分析战略的第一步是确定要完成的目标和目的。”例如,部署是否旨在增加销售额?它能检测到欺诈和/或识别风险区域吗?他指出:“在制定战略时,始终牢记最终目标,将有助于把工作重点放在具体要实现的战略目标上。”
Culminate战略集团负责人Karrie Sullivan建议先进行一次盘点,将来自各个业务部门的相关数据源汇集起来,以确定企业预测性分析准备工作的总体状态。她说:“注意体量、历史、格式,以及相邻系统/进程的重叠,等等。”
最后,在关键业务领域部署预测性分析之前,先进行一些非正式测试,以了解该技术怎样用于预测实际的业务状况。在市场营销或者客户服务等往往会产生大量数据的领域开展实验。Sullivan解释道:“这一步的目标是让每个人都能理解预测性分析能够干什么。”
2.保证数据质量
富有洞察力的预测性分析需要可靠的数据。不准确的数据实际上导致了错误或者误导性的结果。Moody说:“确保数据质量的第一步是当数据输入系统时,有高效的自动输入控制功能。”
Moody说,当数据质量超出企业控制范围时,比如从外部提供者那里获取数据,评估数据质量应该是分析过程的第一步。他告诫说:“如果后期才发现数据的质量问题,那么在验证和纠正数据质量问题之前过度深入的分析会导致大量的返工。”
不过Crosby也认为,如今的企业不必像过去几年那样对数据质量过份挑剔了。“幸运的是,目前不再要求数据非常清洁,甚至不需要完全理解。我们可以使用学习功能来自动推断‘灰色数据’的情况。”Crosby指出,真正重要的是尽可能多地获取原始数据。“所以,你需要检测自己的系统,收集大量的数据。”
3.管理数据量
虽然访问大型数据池通常是一件好事,但将大量多余的数据输入到预测性分析工具中可能会拖累关键的过程,而且存在着机密数据暴露给犯罪分子的风险。Moody解释说:“获取太多的数据可能会给我们带来难题,不知道怎样利用正确的数据进行分析。把数据清理好将有助于确保在执行预测性分析时使用正确的数据。”
Sullivan认为,有效而且高效地管理大量数据的诀窍在于准确地理解哪些数据集可能是有用的,哪些数据集可以被安全地忽略掉。一名熟练的数据科学家最有资格做出这样的决定。她指出:“数据科学家有时能够发现被大多数人当成干扰的数据中的价值。”
4.尊重数据隐私/所有权
面对越来越多的公众和政府审查,企业现在面临的保护数据隐私和所有权的难题比之前更为棘手。预测性分析采用者也不例外。一种推荐的做法是限制文件访问和仅使用专门用于分析的数据。Moody说:“识别个人的屏蔽字段也是尊重数据隐私的有效方式。还有很多不会去识别数据的工具,这减少了对数据隐私的担忧。”
避免侵犯隐私最简单的方法是仅在必要的最短时间内保留数据。Crosby解释道:“快速丢掉那些暂时性的数据,但随时能够获得高价值的丰富的深度分析结果,这就避免了原始数据隐私问题。”
5.尽可能提高可用性
当从一开始就设计复杂模型以便生成易于理解的结果时,预测性分析技术工作的效果会最好。然而,情况往往并非如此。在现实中,企业通常发现自己要处理的结果是如此复杂和难以理解,只有数据科学家才能准确地解释它们。而另一种极端情况是,对结果的解释非常浅薄和简单化,以至于对各方几乎没有什么价值。
为能够最大限度地提高可用性,重要的是在构建并部署用户界面时要考虑最终用户的需求。医疗保健预测性分析和机器学习公司LeaTaaS的创始人兼首席执行官Mohan Giridharadas说:“虽然底层模型可能非常复杂,但用户界面可以非常简单。”可以看看谷歌的网页搜索或者苹果的iPad来寻找灵感。Giridharadas观察到,“这些产品的用户体验几乎对于任何人都是友好的,但却隐藏了这些公司产品难以置信的软件和硬件复杂度。”
Adobe分析云的集团产品经理Ben Gaines指出,预测性分析是一门迭代科学。一旦模型启动,这一事实就变得显而易见了。Gaines解释说:“你将开始看到模型表现得有多好,能够调整和重新校准它,以获得更准确和可操作的深度分析结果。”例如,预测性模型可以帮助企业预测趋势,包括设备间的预期流量,使用户能够预测每个页面的效果,并根据预计收入来设定预算和目标。他建议:“一旦知道了真正的效果,以及怎样调整预算和目标,就可以由此精确地调整模型。重要的是要明白,预测性分析程序并不能保证完全正确地运行——错误是不可避免的,但它会帮助企业更好地理解数据和模型。”
6.控制成本
在线信贷公司Marlette基金的首席决策科学官Arnold Pravinata指出,在大多数分析预算中,数据获取和工资支出是两个最大的项目。为了帮助控制数据成本,Pravinata建议定期进行检查,看看是否有任何资金被浪费在无用或者低效的数据上。他说:“对于人力资源成本而言,我们通常需要看好市场走向。”
随着数据量的增长,存储成本也会迅速增加。Sullivan认为,保持成本最好的总体方法是集中数据并应用稳固的治理策略。她注意到,“我相信未来几年我们会更广泛深入地讨论预测性分析维护的自动化,但现在我们仍然面临很多困难。”
7.选择合适的工具
预测性分析市场正在迅速扩张,这意味着新的采用者将面对一系列令人眼花缭乱的平台和工具。很少有企业拥有能够在这些领域做出明智选择的人才。在企业内部建立这样的技能需要时间和金钱。因此,大多数企业在开发预测性分析计划时会寻求某种形式的外部帮助。在这样做的时候,重要的是要密切关注所推荐的产品和服务,并考虑它们能否适应企业的长期计划。Crosby建议:“应寻找那些不会将你限制在特定的分析算法或者学习堆栈上的解决方案。因为所有这些都是开源的,灵活的分析平台应该能够随着时间的推移动态升级到更新的、更先进的算法。”
原文网址
https://www.cio.com/article/3287937/predictive-analytics/7-tips-for-overcoming-predictive-analytics-challenges.html
W. Edwards Deming是最早将统计技术和预测性分析应用于业务流程的先驱人物,他很好地诠释了这一点。他曾说过:“最大的问题就是人们一开始没有意识到自己有问题。”
当涉及到预测性分析时,“最大的问题”在规划和早期部署阶段往往并不明显,只有当随着时间的推移,技术未能達到预期的结果时才会成为问题,引起关注。
边缘设备分析软件开发商SWIM.AI的首席技术官Simon Crosby认为,由于糟糕的规划和不切实际的期望,导致出现了很多常见的预测性分析难题。他解释道:“预测性分析不是一个神奇的魔杖,对着复杂的系统或者组织挥一挥就能够自动地进行改进。深入了解企业所拥有的深度分析,选择一款工具集,可以让你能够快速形成假设,动态地将分析注入到数据流中,寻找相关性或者异常,也可以预测未来的表现。”
以下是成功的预测性分析采用者需要避免或者解决常见项目难题的7条建议。
1.建立并执行正式的战略
“即兴发挥”绝对不是预测性分析的最佳方法,预测性分析可能是目前日常使用的最先进、最复杂的企业技术。风险管理咨询公司CBIZ的高级经理Scott Moody建议:“建立预测性分析战略的第一步是确定要完成的目标和目的。”例如,部署是否旨在增加销售额?它能检测到欺诈和/或识别风险区域吗?他指出:“在制定战略时,始终牢记最终目标,将有助于把工作重点放在具体要实现的战略目标上。”
Culminate战略集团负责人Karrie Sullivan建议先进行一次盘点,将来自各个业务部门的相关数据源汇集起来,以确定企业预测性分析准备工作的总体状态。她说:“注意体量、历史、格式,以及相邻系统/进程的重叠,等等。”
最后,在关键业务领域部署预测性分析之前,先进行一些非正式测试,以了解该技术怎样用于预测实际的业务状况。在市场营销或者客户服务等往往会产生大量数据的领域开展实验。Sullivan解释道:“这一步的目标是让每个人都能理解预测性分析能够干什么。”
2.保证数据质量
富有洞察力的预测性分析需要可靠的数据。不准确的数据实际上导致了错误或者误导性的结果。Moody说:“确保数据质量的第一步是当数据输入系统时,有高效的自动输入控制功能。”
Moody说,当数据质量超出企业控制范围时,比如从外部提供者那里获取数据,评估数据质量应该是分析过程的第一步。他告诫说:“如果后期才发现数据的质量问题,那么在验证和纠正数据质量问题之前过度深入的分析会导致大量的返工。”
不过Crosby也认为,如今的企业不必像过去几年那样对数据质量过份挑剔了。“幸运的是,目前不再要求数据非常清洁,甚至不需要完全理解。我们可以使用学习功能来自动推断‘灰色数据’的情况。”Crosby指出,真正重要的是尽可能多地获取原始数据。“所以,你需要检测自己的系统,收集大量的数据。”
3.管理数据量
虽然访问大型数据池通常是一件好事,但将大量多余的数据输入到预测性分析工具中可能会拖累关键的过程,而且存在着机密数据暴露给犯罪分子的风险。Moody解释说:“获取太多的数据可能会给我们带来难题,不知道怎样利用正确的数据进行分析。把数据清理好将有助于确保在执行预测性分析时使用正确的数据。”
Sullivan认为,有效而且高效地管理大量数据的诀窍在于准确地理解哪些数据集可能是有用的,哪些数据集可以被安全地忽略掉。一名熟练的数据科学家最有资格做出这样的决定。她指出:“数据科学家有时能够发现被大多数人当成干扰的数据中的价值。”
4.尊重数据隐私/所有权
面对越来越多的公众和政府审查,企业现在面临的保护数据隐私和所有权的难题比之前更为棘手。预测性分析采用者也不例外。一种推荐的做法是限制文件访问和仅使用专门用于分析的数据。Moody说:“识别个人的屏蔽字段也是尊重数据隐私的有效方式。还有很多不会去识别数据的工具,这减少了对数据隐私的担忧。”
避免侵犯隐私最简单的方法是仅在必要的最短时间内保留数据。Crosby解释道:“快速丢掉那些暂时性的数据,但随时能够获得高价值的丰富的深度分析结果,这就避免了原始数据隐私问题。”
5.尽可能提高可用性
当从一开始就设计复杂模型以便生成易于理解的结果时,预测性分析技术工作的效果会最好。然而,情况往往并非如此。在现实中,企业通常发现自己要处理的结果是如此复杂和难以理解,只有数据科学家才能准确地解释它们。而另一种极端情况是,对结果的解释非常浅薄和简单化,以至于对各方几乎没有什么价值。
为能够最大限度地提高可用性,重要的是在构建并部署用户界面时要考虑最终用户的需求。医疗保健预测性分析和机器学习公司LeaTaaS的创始人兼首席执行官Mohan Giridharadas说:“虽然底层模型可能非常复杂,但用户界面可以非常简单。”可以看看谷歌的网页搜索或者苹果的iPad来寻找灵感。Giridharadas观察到,“这些产品的用户体验几乎对于任何人都是友好的,但却隐藏了这些公司产品难以置信的软件和硬件复杂度。”
Adobe分析云的集团产品经理Ben Gaines指出,预测性分析是一门迭代科学。一旦模型启动,这一事实就变得显而易见了。Gaines解释说:“你将开始看到模型表现得有多好,能够调整和重新校准它,以获得更准确和可操作的深度分析结果。”例如,预测性模型可以帮助企业预测趋势,包括设备间的预期流量,使用户能够预测每个页面的效果,并根据预计收入来设定预算和目标。他建议:“一旦知道了真正的效果,以及怎样调整预算和目标,就可以由此精确地调整模型。重要的是要明白,预测性分析程序并不能保证完全正确地运行——错误是不可避免的,但它会帮助企业更好地理解数据和模型。”
6.控制成本
在线信贷公司Marlette基金的首席决策科学官Arnold Pravinata指出,在大多数分析预算中,数据获取和工资支出是两个最大的项目。为了帮助控制数据成本,Pravinata建议定期进行检查,看看是否有任何资金被浪费在无用或者低效的数据上。他说:“对于人力资源成本而言,我们通常需要看好市场走向。”
随着数据量的增长,存储成本也会迅速增加。Sullivan认为,保持成本最好的总体方法是集中数据并应用稳固的治理策略。她注意到,“我相信未来几年我们会更广泛深入地讨论预测性分析维护的自动化,但现在我们仍然面临很多困难。”
7.选择合适的工具
预测性分析市场正在迅速扩张,这意味着新的采用者将面对一系列令人眼花缭乱的平台和工具。很少有企业拥有能够在这些领域做出明智选择的人才。在企业内部建立这样的技能需要时间和金钱。因此,大多数企业在开发预测性分析计划时会寻求某种形式的外部帮助。在这样做的时候,重要的是要密切关注所推荐的产品和服务,并考虑它们能否适应企业的长期计划。Crosby建议:“应寻找那些不会将你限制在特定的分析算法或者学习堆栈上的解决方案。因为所有这些都是开源的,灵活的分析平台应该能够随着时间的推移动态升级到更新的、更先进的算法。”
原文网址
https://www.cio.com/article/3287937/predictive-analytics/7-tips-for-overcoming-predictive-analytics-challenges.html