数据入,智能出:机器学习管道不再神秘

来源 :计算机世界 | 被引量 : 0次 | 上传用户:zfflygun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  数据加上算法等于机器学习,但是这一切是怎样展开的呢?让我们打开盖子,彻底搞清楚这些碎片是怎么拼在一起的。
  把机器学习看成是一个魔术黑箱是比较贴切的。进去的是数据;而出来的是预测。但是在这里没有什么魔法——只是数据和算法,以及通过算法处理数据所创建的模型。
  如果您通过机器学习从数据中得出可操作的深度分析,那么就能搞清楚黑箱里面到底有什么。您越清楚箱子里到底有什么,就会越了解数据怎样转化为预测这一过程的每一步,您的预测就会越强大。
  开发人员所说的“构建管道”是描述软件是怎样从源代码到部署实现的。当数据流过机器学习解决方案时,也会有一条管道。掌握管道怎样汇集到一起是从内向外了解机器学习本身一种有效的方法。
  但是如果使用流数据,对于怎样从数据中生成模型和结果,您可以有两个选择。第一个选择是将数据保存在某个地方——数据库或数据湖,并在以后进行分析。第二个选择是在流数据输入时对模型进行训练。
  流数据的训练也有两种形式,机器学习解决方案提供商BigML的Charles Parker对此进行了描述。一种情形是您在模型上应用最新的数据流进行预测,但是您并未调整底层模型。另一种情形是您获取的数据需要经常用来训练全新的模型,因为老的数据并不相关。
  这就是为什么尽早选择算法是很重要的原因所在。一些算法支持增量再训练,而其他算法必须从头开始采用新数据重新训练。如果您一直在为自己的模型提供新数据,需要经常再训练,那么您会希望使用支持增量再训练的算法。例如,Spark Streaming支持这类增量再训练。
  机器学习的数据准备
  一旦您拥有了用于训练的一个数据源,下一步是确定它可以用于训练。描述所使用数据的一致性最合适的术语是规范化。
  现实世界的数据会有很多噪声。如果它来自数据库,那么在那里会自动进行一定程度的规范化。但是很多机器学习应用程序也可能从数据湖或者其他异构源直接提取数据,如果是用于生产目的,它们的数据不一定要进行规范化。
  《Python机器学习》的作者Sebastian Raschka在书中详细介绍了规范化,以及怎样针对某些常见类型的数据集进行操作。他使用的例子是以Python为主的,但基本概念是通用的。
  是不是总是要进行规范化呢?麻省理工学院人工智能博士生Franck Dernoncourt在详细讨论堆栈溢出时指出,不总是。但正如他所说的,“不会有太大问题”。他认为,重要的是应用情形。对于人工神经网络,不一定需要规范化,但也是有用的;对于像K-means聚类等算法,归一化是非常重要的。
  《从数据中学习》一书的作者之一Malik Magdon-Ismail认为,当“数据规模太大”的时候,规范化就不是一个好主意了。一个例子:“在信贷审批中,如果要求收入是债务的两倍,那么收入两倍于债务是恰当的。”
  在数据录入和准备阶段还要注意的是,怎样通过数据以及规范化后的数据,将偏差引入模型。机器学习中的偏差会产生实际的后果;这有助于知道怎样找到并消除可能存在的这种偏差。不要认为干净(可读、一致)的数据是没有偏差的数据。
  训练机器学习模型
  一旦建立了数据集,接下来就是训练过程,数据被用于生成可以进行预测的模型。
  我之前提到的预测工作类型和使用的算法种类在这里很重要,具体取决于您是需要在批量数据上一次完成全部训练的模型,还是需要逐渐进行再训练的模型。而訓练模型的另一个关键因素是怎样调整训练以提高最终模型的精度——所谓的超参数化。
  用于机器学习模型的超参数是控制怎样从算法生成最终模型的一些设置。例如,K-means聚类算法以某种方式,根据彼此相似程度把数据组织成组。因此,K-means算法的一个超参数会是要搜索的聚类的数量。
  通常,超参数的最佳选择来自于该算法的经验。有时,您需要尝试一些变化,看看哪些可以为您的问题集产生可行的结果。也就是说,对于某些算法实现,可以自动调整超参数。例如,用于机器学习的Ray体系架构具有超参数优化功能。
  用于模型训练的很多库可以利用并行特性,通过把训练过程分布在多个CPU、GPU或者节点上来加速训练过程。如果您能够访问硬件,并行进行训练,那么请使用它。每增加一台计算设备,通常都能够以接近线性的方式进行加速。
  用于进行训练的机器学习体系架构支持并行训练。例如,MXNet库可以让您并行训练模型。MXNet也支持并行训练的两种关键方法——数据并行和模型并行。
  谷歌大脑团队成员Alex Krizhevsky在一篇关于并行化网络训练的论文中解释了数据并行与模型并行之间的差异。采用数据并行,“不同的员工在不同的数据实例上训练[模型] ...但是必须同步模型参数(或者参数梯度),以确保他们训练一致的模型。”换句话说,您把数据拆分到多个设备上进行训练,但必须确保生成的模型彼此保持同步。
  采用模型并行,“不同的员工训练模型的不同部分”,但是当“由一个员工训练的模型部分需要由另一个员工训练的模型部分输出”时,员工必须保持同步。当训练模型具有彼此互相输入的多个层(例如递归神经网络)时,通常使用该方法。
  应学习怎样使用这两种方法来组装管道,因为很多体系架构现在都支持这些方法,例如Torch体系架构。
  部署机器学习模型
  正如Gilbert在“机器学习管道:构建模块的中国菜单”文章中所述,管道的最后一个阶段是部署经过训练的模型,即“预测和服务”阶段。在这里,针对输入数据运行经过训练的模型,以产生预测。例如,对于面部识别系统,输入数据可以是头像或自拍照片,从别的脸部照片衍生的模型进行预测。
  在哪里以及怎样进行这种预测构成了管道的另一部分。最常见的情形是通过RESTful API从云实例中提供预测。云服务的所有明显优势都体现在这里。例如,您可以调出更多的实例来满足需求。   采用云托管模型,您还可以将更多的管道保留在同一个地方——训练数据、训练过的模型和预测基础设施等。您不必四处移动数据,所以一切都更快。能够更快的完成模型的增量再训练,因为模型可以在相同的环境中进行再训练和部署。
  但是,有时可以在客户端部署模型并从那里提供预测。这种方法比较好的应用是在移动领域,这一应用领域的带宽是非常重要的,适用于网络连接不能保证或者不可靠的应用。
  值得注意的是,在本地机器上进行预测的质量可能不高。由于本地存储限制,所部署的模型规模可能较小,这会影响预测质量。在智能手机等适合的设备上部署高精度模型变得越来越可行,这主要是通过稍微牺牲一些精度,以提高速度来实现的。有必要看一看存在问题的应用程序,看看能否更好地在客户端上部署经过训练的模型,并定期刷新它,而不是通过远程API访问它。
  还有另一种障碍:由于您可以在很多地方部署模型,因此,部署过程可能会很复杂。除非是逐个的部署应用程序,否则,从任何一个受过训练的模型到任何一个目标硬件、操作系统或者应用程序,都不会有一致的路径。尽管有越来越多的使用某种机器学习模型开发应用程序的实践活动,但是要找到一致的部署渠道还是有很大的压力,这种复杂性并不会很快消失。
  机器学习管道并不是真正的管道
  管道這一术语意味着从一端单向流动到另一端。在实际中,这种流动是有周期性的:数据进入,用于训练模型,然后随着新数据的输入,数据条件随之发生变化,对模型的准确性进行评估和再训练。
  除了机器学习管道,除了需要专门关注的各个部分之外,现在我们没有太多的选择。不是因为每个阶段有不同的功能,而是因为所有组成部分的端到端集成方式还很少。换句话说,并没有管道,只是我们自己认为是管道的一系列活动。
  但是项目正在汇集在一起,以满足实际管道这一需求。例如,Hadoop供应商MapR有自己的“分布式深度学习快速入门解决方案”——把六节点一年许可的MapR Hadoop发行版,提供CPU/GPU支持的集成神经网络库,以及专业咨询服务结合在了一起。
  理想的解决方案将是一个完整的开源设计模式,涵盖管道的每个阶段,并提供与现有软件连续交付系统的无缝体验。换句话说,像Wikibon的Gilbert所说的那样,它构成了“数据科学家的工具”。百度已经宣布正在为数据科学家寻找一种开发工具,其中,Kubernetes是主要因素(MapR还用于协调其系统中节点间的工作),但是还没有具体的实现。
  在那一天到来之前,我们必须安排好由内而外的学习管道的方方面面。
  Serdar Yegulalp是InfoWorld的资深作家,主要工作是InfoWorld技术观察新闻分析博客和定期评论。
  原文网址:
  http://www.infoworld.com/article/3198252/artificial-intelligence/data-in-intelligence-out-machine-learning-pipelines-demystified.html
其他文献
“什么感觉?有没有出现耳鸣?”位于深圳市南山区腾讯大厦25层的一个密闭空间里,QQ音视频实验室负责人邱建问。在这个密闭的空间静静站立30秒,期间只能听见喘气的声音和不知因何而来的耳鸣。  这是位于腾讯大厦的4个QQ音视频实验室之一的音频实验室,为了保证每次测试环境的一致,这里被设计成了一间消音实验室。全钢体框架密闭结构、六面墙体布满吸音棉、全套高保真音响输出音频,在实验室大门关闭后,这个空间的分贝
2015年11月19日,国务院总理李克强主持召开国务院常务会议,要求建立资本市场小额再融资快速机制,并首次提出“开展股权众筹融资试点”。随后的12月25日,作为股权众筹监管方的证监会终于首次发声,释放了“股权众筹融资试点”的重要信号。证监会副主席方星海透露,股权众筹试点将确定于2016年开展,并表示这是一个循序渐进的工作,不会造成一哄而上的局面。  股权众筹是指公司出让一定比例的股份,面向普通投资
湖水湛蓝一只白天鹅在白桦林中  抖动着忧伤的羽翎不料却被邪恶的魔爪  扼杀了善良美丽和真挚的爱情  有多少双眼睛都在悄悄流血啊  整个世界的良心裂开了一道伤痕  然而这凄婉的故事穿越时空  在白雪覆盖的北京玉渊潭湖面溅落  又一只雪白圣洁的天使  被黑洞洞的枪口射杀顿时  整个北京的冬天都被  一颗罪恶的子弹染红  郑作新这位爱鸟如命的老科学家  流泪了为什么这是为什么呀  偌大的一个地球难道就连
随着大小企业增加云计算的部署,有效交付、管理及监控可用性基础设施会变得更具挑战性。全球66%的企业承认,数字化转型正收到意外停机或应用程序可用性不足的阻碍。  业务间断带来的损失远远超过我们可以见到的直接损失。美国达美航空电脑持续5小时的宕机,就导致连续两天 1800 班飞机被临时取消,专业机构评测,这次宕机带来的直接和间接损失在1.5亿美元。  企业正在重新评估他们的数据中心,采用混合云战略来迎
摘要:语文是初中阶段一门重要的基础学科,高质量的语文教学能够培养学生人文素养,提高学生思维能力。文章简单分析了影响初中语文课堂教学有效性的因素,结合实际教育工作经验,提出了提高初中语文课堂教学有效性的策略。  关键词:初中语文;课堂教学;有效性;策略分析  一、 引言  传统教学模式下的初中语文课堂气氛沉闷,教师过分强调自身主导作用,忽略了学生的主体地位,单一的教学方式和枯燥的教学内容导致学生兴趣
“您现在主要是维护运行纽曼的信息系统吗?”  “那是老版本了,我现在负责网络渠道。”杨学锋拿出一张名片指给记者看——他现在的身份是纽曼公司网络直销运营总监,工作是管理纽曼在淘宝商城、淘宝网、拍拍网的销售代理商,同时也管理纽曼官方商城和各种团购网站的销售工作。  从信息中心主任到网络直销运营总监,杨学锋的职位变动从另一个侧面折射出电商在进入传统渠道领地的同时,也给消费电子业带来了巨大的市场机遇。这种
当保险遇上互联网后,产生的不仅是新的保险销售渠道,更是新的保险应用场景。这些场景构成了互联网保险的创新之基、活力之源,场景化已经成为互联网保险的一大发展趋势。当前互联网日益深度地融入人们生活场景的点点滴滴、方方面面,在带来便利的同时,也会带来新的风险,需要获得相应保障。随着80后、90后等互联网深度使用人群日渐成为消费主力军,不仅越来越多的消费场景将由线下搬到线上,而且还会在线上产生全新的消费场景
编译 Charles  著名发明家说,虚拟现实将与人工智能、云计算和机器人技术相融合。  在他最新的ABC电视纪录片《遇见阿凡达》中,澳大利亚生物医学工程师兼发明家Jordan Nguyen博士与一名截瘫男子进行交流,他使用虚拟现实疗法帮助他重新站了起来。  Nguyen博士在墨尔本的Nutanix NEXT活动中向与会者介绍说:“这是我见过的最酷的一件事。”  Nguyen博士说:“我的一个朋友
本报综合消息 8月18日,Google发布了其基于Linux的开源手机平台Android的最新升级版本Android SDK 0.9 Beta版,同时公布了Android未来发展的路线图。  本月初,有219名开发者在一份请愿书上签名,要求Google透露一些关于Android的技术细节及开发进程,以便他们开展基于Android平台应用的开发工作。“我们非常感激开发者的积极态度,他们的这种热情让我
高空航拍专用“无人机”成功研发  日前,山东滨州一家公司的5人团队成功自主研发出一款专门用于高空航拍的遥控无人机——多轴飞行器。据了解,这架遥控多旋翼飞行器是专为高端航拍设计的,具有重负载、航时常、飞行稳定、维护简单等优点,且飞行高度可达200余米,远远超出90米左右的一般航拍需求。  乐视网发布新盒子CS1  3月19日,乐视网联合央视播控平台正式推出乐视盒子CS1。据悉,乐视盒子CS1将由富士