关于机器学习的5个要点

来源 :计算机世界 | 被引量 : 0次 | 上传用户:lj445566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  推特和脸书可以教会我们很多关于高效人工智能的知识。
  据Gartner最近的一项调查,很多企业刚刚开始机器学习之旅,37%的企业已经实施了人工智能。如果你已经打开了机器学习的大门,在开始机器学习概念验证或者学习人工智能、机器学习和深度学习的完整指南之前,建议先想一想10个问题。
  机器学习正在发展,频繁报道出现了新的商业突破、科学进步、框架改进和最佳实践。
  对于那些拥有大规模机器学习项目并将人工智能视为业务核心的企业,有很多东西值得我们学习。前不久在纽约的O’Reilly人工智能会议上,我发现了脸书和推特机器学习项目之间的几个共同趋势。
  了解业务需求和竞争因素
  在脸书,机器学习被应用于很多领域。在脸书主页上,它搜索、翻译语言、扫描新闻提要、识别上传照片中的人脸,并查看显示了哪些广告。在后台,机器学习用于进行内容理解、语音识别、内容完整性、情绪分析、不良内容检测和欺诈账户检测。
  同样,还可以在推特的推文排名、广告选择、搜索功能和用户推荐中看到推特的机器学习在发挥作用。机器学习还用于标记骂人的推文、垃圾邮件和不适合工作的图像。
  你可能看不出来每种机器学习工作的规模,以及这两家公司在差异化上的投入情况。
  脸书每天为其26亿用户进行超过200万亿次的预测。其很多用户都是全球性的,带宽有限,大量的交互都是通过移动电话完成的。
  这带来了一些难题,因为61%的全球移动用户的手机都使用了6年甚至更长时间;只有不到10%的用户使用最先进的智能手机。脸书的一种策略是把更多的神经网络计算转移到边缘设备上,以提高规模、降低延迟,并提供更个性化的机器学习模型。脸书的机器学习技术栈反映了它的目标,即大规模地进行推理,并将一些计算卸载到边缘设备上,使得更容易研究新模型。
  推特根据规模和延迟需求优化其模型。它每秒执行数千万次预测,每天以数十TB的数据训练一些模型。该公司专注于优化延迟,即模型响应所需的时间,并定义了数十毫秒的预测延迟预算。
  标准化平台以扩大规模
  脸书和推特都很早就开始了他们的机器学习项目。他们从非结构化方法开始,而现在正在采取措施使其平台、框架和流水线标准化。推特的目标是让分享模型变得更容易,并希望减少重复性的工作。脸书正在解决可靠性、可扩展性、运行模型的效率以及其科学家和工程师在开发体验等方面遇到的难题。
  两家公司的平台都围绕类似的数据流水线处理原则进行了优化。他们都有处理数据、提取特性、训练模型和把模型部署到生产环境中的步骤。
  这两家社交媒体巨头正在采取措施,对某些机器学习框架进行标准化处理。脸书使用PyTorch进行简单研究,而Caffe2则大规模运行生产推理模型。它将这些整合到了Pytorch 1.0中,Pytorch 1.0结合了这两种功能,并使用Caffe2Go运行其移动神经网络。推特混合使用了Lua Torch、TensorFlow、Scikit、PyTorch和其他平台。它现在正在标准化Scalding、PySpark、TensorFlow,以及Apache Airflow。
  讓科学家、开发人员和工程师协同工作
  推特和脸书描述了在数据科学家、开发人员和工程师之间提高工作效率,实现知识共享和代码重用的各种工作。
  很多数据部门在其数据治理项目中建立了数据目录和字典。利用这些工具,每个人在使用数据进行分析或者机器学习实验时更容易理解基础数据模型、字段定义和质量约束。
  推特把机器学习实验中使用的特征标准化,并将其输入到一个特征存储目录中,从而更进了一步。这减少了重复工作,帮助科学家训练新模型,更轻松地把数据处理成特征。
  脸书也在对其特征进行编目和标准化,实现训练的自动化,开发管理和部署模型的工具。FBLearner是其支持这些功能的标准平台。
  此外,脸书正在标准化所使用的机器学习类型。例如,新闻提要、广告、搜索和异常检测的排名使用多层感知器。它还利用卷积神经网络和支持向量机进行面部识别,并利用递归神经网络进行语言翻译。
  自动化机器学习模型的连续训练
  就像软件应用程序一样,机器学习模型需要不断地进行训练和修改。脸书和推特都将这种训练自动化,这样,模型就可以用新数据重新进行调整。
  推特认识到,将模型投入到产品中会产生新的要求,即让模型接受最新数据的训练,并在数据科学家改进模型时对其进行更新。Apache Airflow自动化了训练和部署流水线。
  脸书在其策略上非常明确。对于频繁变化的模型,例如新闻提要,可以每小时甚至在更短的时间内再训练一次,而语言翻译和面部识别模型的训练周期可以是几周到几个月。
  计算成本和计算资源的可用性也是影响模型重新训练频率的因素。脸书可能有战略计算优势,因为它开发了针对不同类型机器学习工作负载进行过优化的硬件堆栈。推特的重点是优化算法性能,以及在全球计算资源利用较低的非高峰时间段安排训练。
  长远规划
  与大多数企业相比,推特和脸书在应用和扩展机器学习方面远远领先于成熟度曲线。我们能从他们的成功中学到什么?
  从小处着手,通过训练模型和在产品中运行来验证业务价值,然后进一步投入,以扩大规模,让实践成熟起来。成熟的实践需要类似于应用程序开发的规程,包括标准化框架、定义体系结构、选择维护周期、优化性能,以及自动部署流水线。
  你会看到,机器学习提供了巨大的价值,但也需要围绕性能和投入进行持续的调查,以做出改进。模型得到训练、部署、优化,然后被更好的模型所取代。机器学习是一种新的工具和技能集,对于必须改善用户体验或者利用数据提高竞争价值的企业来说,它将变得越来越重要。
  Isaac Sacolick是公认的社交领域的最佳首席信息官,也是“社交、敏捷和转型”以及CIO.com的长期博主,还兼任StarCIO总裁。
其他文献
IT部门要想成功,人工智能(AI)是必不可少的。如此一来,你可能会想,这不过是在持续炒作这种技术的重要性而已。  肯定的一面,人工智能能够带来业务价值。否定的一面,它不会神奇地解决企业的所有问题。  尽管如此,理性地对待人工智能,它仍然可以推进你的企业系统,从而改善业务运营。为了了解企业IT目前可以在哪些方面有效地利用人工智能,CIO.com采访了Forrester Research的人工智能分析
摘 要革命与改良既是人类社会变革的基本方式,也是近代中国社会各阶层探索国家生存发展出路的主要手段。二者无高下优劣之别,亦非对立排斥的关系。如果说“五四”前革命与改良的更替推进,乃中国社会各阶层在探索国家出路初期对各种民族复兴方案的不断比较和试验,或者说各种政治力量对时代话语权激烈争夺之表现的话,那么“五四”后革命主体性的形成,则是改良道路一再受阻及其试验过的各种救国方案难以展开,以及民族危机不断加
[摘要]20世纪30年代浙江的主要农村副业蚕、棉、桐因市场萎缩处于衰落状态,使浙江农民收入减少,生活恶化。浙江政府推进副业合作以挽救这几种产业。如在实验区组织行业合作社,在合作区实施专业指导,合作贷款,合作研究良种与合作社社员训练等。副业合作是政府对农民由单纯救济到发展生产的一种思路转变,是复兴农村经济若干措施中的一种,在实施过程中既有成效也有阻力,处于不断的探索中,客观上代表了经济现代化的方向。
在商业和运营环境中的物联网系统受攻击面正变得越来越多,并且给许多企业的关键数据和系统的机密性、完整性和可用性带来了新的风险。  安全领导者需要更新其组织的威胁概况以解决这些风险,以及实施正式的计划以主动管理这些风险。分析师认为,否则它们有可能成为不法分子的软目标,这些不法分子一直在寻求利用脆弱的物联网环境进行间谍活动、窃取数据、发起分布式拒绝服务(DDoS)攻击、提升特权,或是以其他方式破坏组织的
2020年已经成为人类历史上极不平凡的一年,全世界遭遇到了百年未有的大变局。在经济面临周期性调整、中美贸易冲突日益加剧和全球爆发新冠肺炎疫情等多重因素影响下,整个信息产业发展也遇到了较大的冲击。  内外部环境的变化,客观上促进了信息产业加快转型和重塑的步伐,当前信息产业正受到以下主要因素影响:国际国内环境巨变引起国家战略调整  在国际政治、经济和社会环境发生巨变情况下,我国的经济社会发展方向和格局
首席信息安全官Omar Khawaja的公司Highmark Health大规模改用远程工作环境时,他只有一项重要任务:让员工们能够从任何地方顺利完成工作。  但为了尽快完成这项任务,Khawaja提议放宽某些控制措施。他这样解释:“我们存在的目的就是成为业务赋能者,因此如果我们阻止业务部门开展要做的工作,那将毫无意义。”  Khawaja的提议看似很激进,不过他表示自己知道其他剩余的安全层可提供
技术人才的缺乏正在持续阻碍人工智能革命。这也是为什么聪明的企业在进行技术部署的同时投入巨资变革企业文化的原因。对此,谷歌为我们带来了他们的“谷歌模式”。  我们正在被越来越复杂的机器学习技术所包围。目前的情况非常糟糕,因为很少有人知道如何使用它们。  据市场研究机构451 Research的最新调查数据显示,技术人才的缺乏正持续阻碍人工智能革命。事实上,人的因素,而非技術因素,一直是导致每次技术革
对于当今的IT领导来说,变革管理不仅仅是技术性的,更将在企业的各个层面引领文化转型。  2020年2月26日,对Carol Juel来说实在是难以忘怀的一天,这有很多原因。那天是她双胞胎孩子的7岁生日,这位Synchrony公司的执行副总裁兼首席信息官急着赶回家给孩子庆生。随着新冠病毒演变为全球疫情,公司也是在那一天的例行会议上有了新议题——研究了AWS Workspace技术,为该公司随后向远程
[摘 要]英美烟公司在华企业在促销方面实现了全面的本土化,包括广告促销本土化、作为促销手段的电影内容本土化、品牌本土化、利用中国传统节日促销四个方面。英美烟公司在华企业促销本土化是其在华取得良好销售业绩的重要条件。  [关键词]英美烟公司,促销,本土化  [中图分类号]K25 [文献标识码]A [文章编号]0457-6241(2007)11-0069-04    英美烟公司1902年成立于伦敦,
1881-1937年间,华北逐渐成为中国铁路分布较多,铁路运输业发展较快的地区之一。其铁路车站和各类铁路工厂中,有相当一部分设于集镇和村庄。由于仅有极少数车站等级较高,工厂规模较大,多数车站等级较低、工厂规模较小,因此形成了铁路站厂的“差序化设置”。这一特征不仅与设站集镇交通运输业的“差异化发展”之间有一定的关联性,而且也促成了以铁路站厂为中心的交通社区的“差异化发展”,影响了设站集镇的工商业和人