关于机器学习的9大误区

来源 :计算机世界 | 被引量 : 0次 | 上传用户:cjh3134
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  机器学习正在被证明非常有用,认为它们能够解决所有的问题以及能够应用到所有环境中的想法十分具有吸引力。然而,与其他任何工具一样,机器学习只在特定的领域有用,特别是对于那些一直困扰我们但我们又清楚无法通过雇用充足人员加以解决的问题,或是有着明确目标但又无明确方法得以解决的问题。
  每一家企业可能都会以不同的方式利用机器学习的优点。在管理咨询公司Accenture近期的调查中,42%的企业主管表示,他们认为到2021年,所有的创新活动背后都有人工智能的支持。但是如果能够清醒地认识到炒作的存在,避免由误解机器学习的能力而造就的神话,这将会让我们受益匪浅。
  机器学习就是人工智能
  机器学习和人工智能常常被作为同义词使用,然而尽管机器学习已经成功地由实验室走入现实世界,但人工智能的覆盖领域更为广阔,如计算机视觉、机器人技术、自然语言处理,以及不涉及机器学习的约束补偿等解决方案。我们可以把它想象成能让机器看起来更聪明的东西。有些人所担心的那种将会与人类竞争甚至是攻击人类的“人工智能”,上述这些没有一个是。
  我们应当对各种流行词汇保持清醒和精准认识。机器学习是指学习模式和利用大数据集预测结果。结论可能貌似“智能”,但是实际上它们只是以前所未有的速度和规模展开运算的应用统计学。
  所有数据都是有用的
  我们需要为机器学习提供数据,但是并非所有的数据对机器学习都有用。为了训练这些系统,我們需要具有代表性的数据,这些数据要涵盖机器学习系统将要处理的模式和结果。数据中不能有无关的模式(如所有男生都站着而所有女生都坐着的照片,或是所有的汽车都在车库中而所有的自行车都在泥泞野外的照片)。因为我们创建的机器学习模型将反映那些过于具体的模式,并在我们使用的数据中查找这些模式。所有用于培训的数据应当被清楚地标记,同时标示出它们的特征,这些特征还要与将要询问机器学习系统的问题相匹配。这些需要做大量的工作。
  不要想当然地认为我们拥有的数据都是干净、清晰、具有代表性或易于标记的数据。
  我们总是需要大量的数据
  得益于更好的工具、能够并行处理海量数据的GPU等计算硬件、大量被标记的数据集(如ImageNet和斯坦福大学问答数据集),机器学习在图像识别、机器阅读理解、语言翻译等领域取得了重大进展。借助被称为“迁移学习”的技术,我们在特定领域内并不需要庞大的数理集才能得出优秀的结果。相反,我们可以教机器学习系统如何学习使用一个庞大的数据集,然后让它们使用这种能力去学习我们自己的一个要小很多的训练数据集。这就是Salesforce和微软Azure自定义视觉API的工作原理:只需要30~50张能够展示我们想要的分类内容的图片就能得出优秀结果。
  迁移学习可通过相对较少的数据就为我们的问题定制一个预先训练好的系统。
  任何人都可以创建一个机器学习系统
  目前已经出现了许多针对机器学习的开源工具和架构,以及大量教授我们如何使用它们的培训课程。但是机器学习仍然是一个极为专业的技术,我们需要知道如何准备数据并将它们拆分用于训练和测试,需要知道如何选择最佳的算法和使用何种启发式算法,以及如何将它们变成一个可靠的生产系统。此外,我们还需要监测系统,确保随着时间的推移结果保持相关性。无论是市场发生了变化,还是机器学习系统已经足以满足应对不同类型的客户,我们都需要不断检查,让模型始终与我们的问题相匹配。
  让机器学习保持适用需要丰富的经验。如果是刚开始起步,在聘用数据科学和机器学习专家创建定制系统的同时,我们还需要关注能够从内部代码调用的预训练模型的API。
  数据中的所有模式都有用
  哮喘病人、胸痛病人或心脏病病人以及任何年龄在100岁的老人在得了肺炎后的存活率要比我们想象的高。事实上,用于实现住院自动化的简单的机器学习系统可能会让他们回家,不让他们接受住院治疗(基于规则的系统使用与神经网络完全相同的数据进行训练)。病人有如此高的存活率的原因在于,因为肺炎对这几类病人非常凶险,因此他们总是能够立即被安排住院治疗。
  系统会查看数据中的有效模式,而有些(尽管可以帮助保险公司预测治疗成本但是)对于选择谁该住院来说并不是一个有用的模式。更为危险的是,我们不知道那些无用的反模式在我们的数据集中,除非我们已经知道它们。
  在其他的一些情况下,系统会学习一些没有用的有效模式(例如,一种有争议的面部识别系统,可以从自拍中准确预测性取向),因为它们没有清晰明确的解释(在这种情况下,照片显示的是社交线索,如姿势,而非其他一些天生的特征)。
  “黑匣子”模型是有效的,但我们不清楚它们学到了什么模式。更为透明和易懂的算法,如广义加性模型会让模型学习到什么变得更为清楚,因此我们可以决定这些模式是否对部署有用。
  强化学习已经为投入使用做好了准备
  事实上,目前在用的所有机器学习系统使用的都是监督式学习。在大多数情况下,它们训练的都是已经被明确标记过的数据集,人类参与了这些数据集的准备。组织管理这些数据集费时费力,因此人们对非监督式学习,特别是对于强化学习(RL)更感兴趣。在强化学习中,代理会不断摸索尝试,与它们的环境进行交互,接收由正确行为带来的奖励。DeepMind的AlphaGo系统在使用监督式学习的同时使用了强化学习才最终击败了与之对弈的围棋高手。卡内基梅隆大学的Libratus也是在使用了强化学习加上其他两种人工智能技术才最终在一对一不限注德州扑克中击败了世界顶级选手。研究人员目前正在对强化学习展开广泛的测试,领域涵盖了从机器人技术到安全软件测试等各个方面。
  强化学习目前在研究领域之外并不常见。谷歌通过让DeepMind学习如何更为高效地降温为数据中心节约了电力。微软通过一个名为上下文老虎机(Contextual Bandits)的强化学习算法为MSN.com网站访问者呈现个性化的新闻头条。问题在于现实世界的环境很少有比较轻松的发现性奖励并且能够立即进行反馈,特别是代理在事情发生之前采取多种行动则属于诱骗奖励。   机器学习没有偏见
  由于机器学习是从数据中学习,因此它们会复制数据集中的所有偏见。搜索首席执行官的图片可能会显示的都是男性白种人首席执行官的照片。之所以会这样,是因为与非男性白种人相比,担任首席执行官的男性白种人要多。这表明机器学习也会放大这种偏见。
  被经常用于训练图像识别系统的COCO数据集中有男性和女性照片,但是更多的女性照片的背景中有厨房设备,而男性照片的背景中更多的是计算机键盘和鼠标或者是网球拍和滑雪板。如果依靠COCO训练系统,它们会更为强烈地将男性与计算机硬件联系在一起。
  一个机器学习系统还能够将偏见施加给另一个机器学习系统。利用流行的架构训练机器学习系统,以一个单词作为向量展示其中的关系,那么它们学到的可能是“男性相对于女性就像计算机程序员相对于主妇”或“医生相对于护士就像老板相对于接待员” 这样的刻板印象。如果我们使用带有这种偏见的系统进行语言翻译,如将芬兰语或土耳其语等性别中立的语言翻译为区别性别的语言如英语,那么就会出现将“ta是医生”翻译成“他是医生”,将“ta是护士”翻译成“她是护士”。
  在购物网站进行相似物品推荐非常有用,但是当涉及敏感领域并能够产生一个反馈回路时,那么问题就来了。如果你在Facebook中加入了一个反对接种疫苗的群,Facebook的推荐引擎将会推荐关注各种阴谋论的群或是相信地球是扁平的群。
  认识到机器学习中的偏见问题十分重要。如果我们不能在训练数据集中移除这些偏见,那么我们可以使用能够调整词对中性别联系的技术减少偏见或是向推荐中增加一些无关的项目以避免“过滤气泡”。
  机器学习仅被用于做好事
  机器学习提升了反病毒工具的能力,它们会关注全新的攻击行为,一旦出现就能发现它们。同样的,黑客也在使用机器学习研究反病毒工具的防御能力,通过分析大量的公共数据或是以前成功的钓鱼攻击从而發起大规模针对性更强的钓鱼攻击。
  机器学习将取代人类
  人工智能将会与我们抢饭碗,改变我们正在做的工作以及我们的工作方式已经成为了一种普遍的担心。机器学习则能够提高效率与合规性,同时降低成本。从长远看,机器学习将在淘汰目前一些岗位的同时创造一些新的工作岗位。由于复杂性或规模性的缘故,许多现在已由机器学习帮助实现自动化的工作在以前要想实现自动化是不可想象的。例如,我们无法雇用充足的人员去看每一张贴在社交媒体上的照片,查看照片中是否有自己公司的品牌的特征。
  机器学习已经开始在创造新的工作机遇,如通过预测性维护提升客户体验,为业务决策提升建议和支持。与之前的自动化一样,机器学习能够解放员工让他们能够发挥自己的专业知识和创造力。
  Mary Branscombe为自由撰稿人,从事科技类新闻已经有20多年,撰写过从编程语言、Windows和Office的早期版本、web到消费者小工具和家庭娱乐等各类文章。
  原文网址
  https://www.cio.com/article/3263776/artificial-intelligence/machine-learning-myths.html
其他文献
摘要 美国的政治体制和安排决定了参议院外交委员会主席能够对美国外交政策发挥举足轻重的影响。富布赖特在担任参议院外交委员会主席期间曾主持参议院“越南听证会”和“中国听证会”,向政府决策者和普通公众更全面地展示中国,帮助他们正确地认识中国,他主持的听证会在美国社会引起了强烈反响。可以毫不夸张地说,富布赖特的“中国听证会”为中美关系解冻起到了积极的推动作用。  关键词 美国外交,中美关系,富布赖特  中
编者按:李翰老师的教学别具一格。他不是要求学生死读课本,而是经常和学生一起分享阅读的快乐。他将自己看到的历史资料介绍给学生,使学生从更大的范围了解历史、理解历史。他还和学生交流思想,把自己也作为一名学习者,真正做到师生平等。这是在教会学生学习,也是向素质教学的方向迈进。从文章中可以窥视到李翰老师的专业兴趣。做教师的自己不喜欢所学专业,就不可能保持阅读。习惯阅读才能不断地充实自己,才能更新知识,才能
[关键词]新文化“运动”,《新青年》,民主,科学  [中图分类号]G63[文献标识码]B[文章编号]0457-6241(2010)17-0058-03    高中历史教材必修三(人教社版)关于新文化运动是这样描述的:1915年陈独秀在上海创办《青年杂志》,提倡民主与科学,反对封建文化,揭开了新文化运动的序幕。这个结论在中学教材中似乎已经成为“铁定”。王奇生先生在其《革命的反革命》一书中,以反思的眼
[关键词]《历史教学》,改进,教育方针   [中图分类号]G63 [文献标识码]B [文章编号]0457-6241(2011)21-0071-02     1964年第5期《历史教学》编辑部撰写的“编者的话”肯定不是空穴来风。文章起笔说:“积极改进教学方法,减轻学生负担,正确地提高教育质量,是目前全日制中小学教育工作中的一个十分重要的问题。”原来1964年也提出过减轻课业负担、提高教学质量的问
[关键词]启蒙运动,教学设计,思考,追问  [中图分类号]663 [文献标识码]B [文章编号]0457-6241(2016)07-0035-07  一、设计思路  《高中历史课程标准》对“启蒙运动”这一历史主题的学习要求是:(必修三)简述孟德斯鸠、伏尔泰、卢梭、康德等启蒙思想家的观点,概括启蒙运动对人文主义思想的发展;(选修二)知道斯宾诺莎、洛克和卢梭民主思想的基本内容,理解民主思想与专制理论的
摘 要中国最后的两部实录《明实录》和《清实录》,对各自朝代的皇帝形象通过神化、美化、圣化、德化和仁化的手法进行了正面塑造,把他们粉饰为天命所归的神仙,长相奇伟、举止不凡的美男,天赋异禀、勤勉向学的圣人,德性崇高、孝友兼备的模范,勤政治国、爱民如子的仁君。然而,在《明实录》中,由于统治链条的断裂造成的“今上”对前帝的嫌怨,以及史臣对君主的不满,也使其部分实录在描写皇帝形象时进行了负面塑造,产生了杂音
编者按:李翰文章中讲三大战役的那段话,我们在编辑过程中注意到了。是删掉还是保留?删很容易,也避免给我们找麻烦。前些年期刊评审,挑的都是类似“政治”问题。发稿时我们选择了保留,在编者按中也没有就此发表意见。因为期刊是个平台,持有这种想法的年轻教师绝不是少数,你删除这些观点不等于它就不存在了。我们估计认真阅读的读者会注意到,也必然会有人写文章辩驳。如果这样,会有利于教师专业素质的提高。以现在的宽松环境
摘 要 村庄共同体是中世纪英国乡村社会重要的基层组织,它的形成与发展对英国社会产生了深远的影响。英国的村庄共同体是在古代村落的基础上,既保留了古代社会中农牧混合的经济模式,同时又融入了中世纪敞田制下的条田制等新元素发展起来的;随着敞田制村庄的形成,以王权为代表的国家又赋予了村庄一定的社会职责,从而使得中世纪的村庄成为了权利与义务相统一的共同体组织。村庄共同体的形成不仅奠定了英国地方自治的基础,而且
[关键词]困惑,解惑,人生启示  [中图分类号]G63 [文献标识码]B [文章编号]0457-6241(2009)05-0059-03    2008年北京中学历史教学年会教学片段比赛,第6号选手、一位小巧的女教师走到前台。她是青年政治学院附属中学的历史教师,叫彭博;讲课内容是选修课《中外历史人物评说》中的“圣雄甘地”一课。她将教学内容整合为“初识甘地和走进甘地”两个子目,简单介绍了教学流程。按
摘 要:中国与意大利的历史,有秦汉和古罗马的强盛,也有近代衰颓。晚清一批知识分子研读罗马史,追思古罗马,反思19世纪意大利之积贫积弱,从气雄万夫的古罗马到衰老不堪的意大利,晚清士人以人的生老病死比附民族兴衰,从“王者兴”到气数已尽,这与德国哲学家奥斯瓦尔德·斯宾格勒文化形态史观在很大程度上暗合。本文审视晚清国人记录意大利古今的文本,分析晚清文本中对罗马帝国巅峰的表述、对罗马帝国衰亡原因的探讨、古罗