机器学习:每一种方法和技巧的适用时机

来源 :计算机世界 | 被引量 : 0次 | 上传用户:huangxiaojuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  机器学习到底能做些什么?
  我们将介绍适合你的各种方法和技巧。
  机器学习对你来说可能已经如雷贯耳了,它是人工智能的一个子集。而机器学习到底能做些什么呢?
  该技术包括很多方法和技巧,每种方法和技巧都有一些很好的应用情形。企业在计划投资机器学习工具和基础设施之前,最好先详细了解一下它们。
  监督式学习
  如果你知道想要机器去学习什么,那么监督式学习是理想的选择。你可以喂给它大量的训练数据,检查输出并调整参数,直到获得预期的结果。随后,可以通过让机器从一组以前从未见过的验证数据中能预测出什么结果,来检查机器学到了什么。
  最常见的监督式学习任务包括分类和预测,即“回归”。
  监督式学习方法可以用于根据过去有关财务业绩的信息来确定个人和企业的财务风险。基于以前的行为模式,这种方法能很好地了解客户的行为方式以及他们的偏好。
  例如,网络贷款市场Lending Tree公司的战略和分析副总裁兼主任Akshay Tandon介绍说,该公司正在使用来自DataRobot的自动化机器学习平台来为其客户定制体验,并基于他们过去的行为来预测客户的意图。
  通过预测客户意图——主要是通过案源计分(lead scoring),Lending Tree公司能够区分出谁只是在看看利率,而谁实际上是想要贷款,并准备申请贷款。使用监督式学习技术,它建立了一种分类模型来定义案源结束的概率。
  无监督式学习
  无监督式学习使得机器能够研究数据集并识别链接不同变量的隐藏模式。这种方法可以用于仅根据数据的统计特性把数据分组到聚类中。
  无监督式学习一种很好的应用,是用于执行概率记录链接的聚类算法,这种技术提取数据元素之间的链接,并在其基础上识别个人和企业以及他们在物理和虚拟世界中的连接关系。
  LexisNexis风险解决方案公司利用分析技术来帮助客户预测和管理风险,该公司技术副总裁Flavio Villanustre介绍说,如果企业需要集成来自不同源和/或跨不同业务部门的数据,以便为客户建立一致和全面的视图,那么这种技术尤其有用。
  咨詢公司剑桥咨询(Cambridge Consultants)的机器学习专家Sally Epstein解释说,无监督式学习可以用于情绪分析,能够根据个人在社交媒体上的帖子、电子邮件或者其他书面反馈来识别个人的情绪状态。该公司看到越来越多的金融服务企业使用无监督式学习来深入了解客户满意度。
  半监督式学习
  半监督式学习混合了监督式和无监督式学习。通过标记一小部分数据,训练者给机器提供一些线索,提示它应该怎样对数据集的其余部分进行聚类。
  半监督式学习可以用来检测身份欺诈,以及其他用途。Villanustre指出,好在欺诈行为并不像非欺诈性行为那么频繁,因此可以把欺诈行为看成是合法行为领域中出现的“异常”。尽管如此,欺诈行为仍然存在,半监督式的异常检测机器学习方法可以用于对这类问题的解决方案进行建模。这种类型的学习被用于识别网上交易中的欺诈行为。
  Epstein说,当有标记和未标记的数据混合在一起时,也可以使用半监督式学习方法,这在大型企业环境中比较常见。她说,亚马逊通过对混合有标记和无标记数据的人工智能算法进行训练,增强了对Alexa服务的自然语言理解能力。她说,这有助于提高Alexa响应的准确性。
  强化学习
  通过强化学习,可以让机器与其所在的环境进行交互(例如,把传送带上有缺陷的产品推到垃圾箱中),并且按照企业的要求完成任务后,对其进行奖励。通过自动计算奖励,可以让机器自己花时间去学习。
  强化学习的一种应用情形是对零售店的服装和其他物品进行分类。
  咨询公司德勤(Deloitte)的分析师David Schatsky专注于新兴技术和商业趋势,他指出,一些服装零售商已经开始尝试机器人等新技术,以帮助对服装、鞋子和饰品等物品进行分类。
  Schatsky说,机器人使用强化学习(以及深度学习)来计算在抓取物品时应该用多大的力,以及怎样恰好地抓取货架上的这些物品。
  强化学习的一种变体是深度强化学习,它非常适合于自主决策,在这种情况下,只采用监督式学习或者无监督式学习技术并不能完成工作。
  深度学习
  深度学习执行无监督式或者强化学习等类型的学习。从广义上讲,深度学习模仿了人们学习方式的某些方面,主要是通过使用神经网络来越来越细致地识别数据集的特征。
  Schatsky说,以深度神经网络(DNN)形式出现的深度学习技术,已经被用来加速药物发现过程中的高含量筛选工作。它涉及到应用DNN加速技术来大幅度缩短处理多副图像的时间,同时从模型最终学习的图像特征中提取出更深入的信息。
  这种机器学习方法还有助于很多企业打击欺诈,通过自动检测不法行为来提高检测率。
  深度学习也可以用于汽车工业。Schatsky介绍说,有一家公司开发了一种基于神经网络的系统,可以及早发现汽车的问题。该系统能够识别噪声和振动,并且利用偏离规范的任何偏差来解释故障的性质。它可以成为预测性维护的一部分,因为它能够判定汽车任何运动部件的振动,并且可以发现汽车性能的微小变化。
  机器学习技术
  神经网络
  神经网络旨在模仿人脑中神经元的结构,每个人工神经元都与系统内的其他神经元相连接。神经网络按层排列,一层的神经元把数据传递给下一层的多个神经元,如此继续。最终,数据到达输出层,在此,网络给出解决问题、识别对象的最佳猜测,等等。
  神经网络在各行各业的应用案例:
  ·Schatsky介绍说,在生命科学和健康护理领域,它们可以用来分析医学图像以加速诊断过程和药物发现过程。   ·在电信和媒体领域,神经网络可以用于语言翻译、欺诈检测和虚拟助理服务。
  ·在金融服务领域,它们可以用于欺诈检测、投资组合管理和风险分析。
  ·在零售业中,它们可以用来缩短结账排队长度,实现顾客体验的个性化。
  决策树
  决策树算法旨在通过发现属性相关的问题来对项目进行分类,这有助于决定把项目放在哪个类中。树中的每个节点都是一个问题,分支会带来项目相关的更多问题,而叶子是最终的分类。
  决策树的应用情形包括为客户服务、定价预测和产品规划构建知识管理平台。
  商业和技术咨询公司SPR的首席数据科學家Ray Johnson评论说,当保险公司根据可能出现的风险来深入分析需要哪种类型的保险产品并调整保费时,可以使用决策树技术。通过把天气相关的损失数据与位置数据相叠加,它能够根据提交的索赔和支付金额来建立风险类别。他说,然后,它可以根据模型覆盖范围来评估新应用,以提供风险类别和可能的财务影响。
  随机森林
  必须对单个决策树进行训练才能提供准确的结果,而随机森林算法则采用一组随机创建的决策树,这些决策树基于不同的属性集进行决策,并允许它们对最受欢迎的类进行投票。
  Epstein说,随机森林是在数据集中寻找关系的通用工具,而且训练起来也很快。例如,大量的垃圾电子邮件长期以来一直是个问题,不仅对用户来说是这样,对于互联网服务提供商也是如此,他们不得不处理服务器越来越高的负载。她说,为解决这一问题,已经开发出了从正常电子邮件中过滤掉垃圾邮件的自动化方法,使用随机森林来快速准确地识别出不想要的电子邮件。
  随机森林的其他用途包括通过分析患者的病历来识别疾病,检测金融欺诈行为,预测呼叫中心的呼叫量,以及通过购买某一股票来预测利润或者损失。
  聚类
  聚类算法使用K均值、均值平移和期望值最大化等技术,根据共享或者类似的特征对数据点进行分组。这是一种可以应用于分类问题的无监督式学习技术。
  Schatsky说,当需要细分或者分类时,聚类技术特别有用。这方面的例子包括根据不同的特征对客户进行细分以便更好地分配营销活动、向某些读者推荐新闻文章,以及落实规章制度等。
  聚类还能够有效地发现复杂数据集中的分组,而人眼并不能一眼看出这些分组。Epstein说,这方面的例子包括对数据库中类似的文档进行分类,以及从犯罪报告中识别犯罪热点等。
  关联规则学习
  关联规则学习是推荐引擎中使用的一种无监督式技术,用于查找变量之间的关系。
  这是很多电子商务网站上“买X的人也会买Y”推荐的支撑技术,怎样使用这类技术的例子很常见。
  Johnson说,一种特定的应用情形是希望促进额外销售的特色食品零售商。他会使用这种技术来分析客户购买行为,为产品庆祝活动、运动队等提供特殊的罐头和包装。关联规则技术能够揭示客户何时何地购买了自己最喜欢的产品组合。
  Johnson说,利用过去采购的信息和时间顺序,公司可以主动地创建奖励计划,并提供特殊的定制产品来促进今后的销售。
其他文献
调查显示,目前几乎所有的企业都在使用多家云提供商和大量基于云的解决方案。也就是说企业IT已经接受了多云模型。  分析公司IDC预计,到2022年,全球90%以上的企业将拥有多个公有云。据IT管理解决方案提供商Flexera发布的《2020年云现状报告》显示,93%的企业部署了多云战略,这一百分比高于两年前的81%。目前受访者平均使用的公有云和私有云均为2.2个。  但是传统企业中公有云和私有云以及
今年的“两会”,全球首位AI合成女主播正式上岗。  这位女主播是新华社和搜狗公司联合推出的新闻新生力量。去年双方联合发布全球首个合成新闻主播,在人工智能与新闻采编深度融合上取得最新突破性成果。今天,升级版的AI合成主播在声音和图像两大引擎上有了较大的优化和突破,用户的新闻视听体验也进一步增强。  今年的“两会”,两度被写入政府工作报告的“人工智能”已不仅仅是热点,而是自上到下的落实与推进。  在十
OpenStack本身已经成熟,使得基金会能够向提供开源基础设施这一更广泛的目标迈进。  OpenStack基金会正在进行变革,社区从开源云平台分支出“开放基础设施”领域。  OpenStack是一系列开源云基础设施组件术语的集合,从裸金属(Ironic)到网络(Neutron)和计算(Nova),等等。  OpenStack最初来自Rackspace和NASA之间的联合项目,经历了各种各样的开发
《历史教学》高校版以史学研究为主要内容,是了解国内外史学动态的重要期刊之一。本刊系“中文社会科学引文索引(CSSCI)来源期刊”“全国中文核心期刊”“人大‘复印报刊资料’重要转载来源期刊”,在史学界载有盛誉。本刊以内容专业、信息量大、及时反映史学前沿热点为主要特色。创刊64年来,始终致力于打造平等、开放、高水平的学术交流平台,是您学术之路上的良师益友,也期待您的订阅与关注。  读者对象:广大史学研
摘 要演清代官学中,咸安宫官学是旗人精英教育的一个典范,其校舍的选建地点、教师资历、学生选拔等方面均体现出清代统治者对满洲精英人才培养的重视。本文拟对清代咸安宫官学的若干问题进行梳理,从教学目标、学生、教习等几个方面考察咸安宫官学在乾隆时期的转变,对其史料的梳理有助于理解清代统治者对旗人的教育理念及核心人才的培养模式,亦可由此观察满洲统治者如何通过官学体系将八旗子弟纳入其核心统治管理层的过程。  
2020年度中国杰出数字化项目奖北京稻香村食品有限公司打造智慧门店联动全业务数字化转型  获奖理由:随着信息化进程的推进,北京稻香村食品有限公司逐步建立了食品厂ERP系统、门店ERP系统、零售系统以及财务系统等多种信息化系统。为了避免每个系统出现数据不互通导致的效率低下,北京稻香村加强了对云计算、大数据、AI等新技术的运用,对多业务系统进行了协同整合,打通了各系统间壁垒,保证了数据的贯通一致,大大
摘要 梁启超的《清代学术概论》是清学史经典著述之一,该书的写作恰逢五四新文化运动方兴未艾之时。将以胡适为代表的新文化运动引入《清代学术概论》的写作背景之中,揭示梁启超写作此书的缘由及其对新文化运动的呼应与引导,以此结论,该书不仅是论列清代考据学的学术史著述,更是一部反映五四思潮的思想史著述。探寻梁启超将一篇序言写成一部专著的缘由,应不失为我们解读该书隐于学术背后思想的一个出发点。  关键词 《清代
[摘要]17世纪英国革命中,妇女通过递交陈情书、参与政治选举和法律审判、募捐等方式参加了这场史无前例的革命,并且在革命中,涉及了女性权利和男女平等,这是近代西方妇女争取女权的最早尝试。  [关键词]英国妇女,17世纪英国革命,女权  [中图分类号]D44 [文献标识码] [文章编号]0457—6241(2007)07—0052—04    直到近代初期,欧洲人依然普遍信奉亚里士多德的格言:妇女涉
[摘要]香港“直辖殖民地”政制模式的主要特征就是港督的高度集权。这为港督的人格、个性及其具体政策对香港社会产生影响提供了广泛的活动空间。1877—1882年,香港第八任港督轩尼诗推行一系列旨在尊重华人并改善其生存状况的“亲华人”政策,在港掀起轩然大波。在华人经济实力增强的背景下,轩尼诗的“亲华人”政策提高了华人社会地位,并在客观上成为港英政府转变殖民统治方式的开端和19世纪香港华人地位上升的重要转
在“新政”教育改革中,不仅地方的“精英行动主义”获得了更多的控制,各级政府的建设也在如火如荼地开展。这不仅为整个20世纪的中国历史树立了榜样,也在当时获得了一定的成效。但由于清朝不久覆灭,因此这些成就不被关注。当然,“新政”的教育改革,并不是都成功。广东东部地区事例显示,“新政”的教育改革,忧喜参半。忧的是,国家实施新教育法,为的是实现为全国的学堂体系筹资的宏伟目标(长期目标是义务教育体系)。由于