机器学习的基本问题

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:ersand
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  中图分类号:TG333.7 文献标识码:A 文章编号:1009-914X(2016)21-0234-01
  机器学习是一种基于数据的学习方法,研究从观测数据所包含的有限信息构造一个模型,利用该模型可对未知数据或无法观测的数据进行尽可能准确的预测,这种模型称为学习机器。对计算机科学而言,所有的数据都是以数字形式表示的,因此机器学习问题实际上是函数估计问题,相应地称函数估计器(Functions Estimator)为学习机器。
  1.1 机器学习问题的表示
  机器学习问题的基本模型,可以用图1表示。其中,系统S是我们研究的对象,它在给定一定输入x下得到一定的输出y,LM是我们所求的学习机,输出为。机器学习的目的是根据给定的已知训练样本求取对系统输入输出之间的依赖关系,使它能够对未知输出作出尽可能准确的预测。
  机器学习问题的数学模型可以表示为:变量与变量存在一定的未知依赖关系,即遵循某一未知的联合概率密度,机器学习的问题就是根据个独立同分布的观测样本
  在一组函数中寻找一个最优的函数对的依赖关系进行估计,使得期望风险(又称实际风险) 最小。
  其中,称为预测函数集(又称学习函数、学习模型或者学习机器),它可以是任何函数集;是的广义参数;是用对进行预测时产生的损失(误差)。由期望风险的定义可以看出,它描述了学习机器在样本所在空间的每一个点上的风险的平均期望值,反映了学习机器的真实推广能力。机器学习的任务就是通过在有限样本上的训练,寻找一个使得期望风险(2)式最小的具体的函数。
  不同的损失函数构成了不同类型的学习问题,主要有三类不同的学习问题,即模式识别,函数逼近和概率密度估计。对模式识别问题,一般其输出Y是样本类别标号,对于,此时损失函数为:
  在函数逼近问题中,是连续变量,损失函数可以定义为
  即采用最小二乘误差准则。而对于概率密度估计问题,学习的目的是根据训练样本决定的概率密度,估计的概率为,其损失函数定义为
  本文主要讨论的模式识别问题,也就是在大部分情况下采用(3)式所示的损失函数。
  1.2 经验风险最小化(ERM)原則
  机器学习的目的在于通过对训练样本的学习,使得学习机器对所有样本预测和其真实输出尽可能相同,也就是使得期望风险(2)式最小。但在实际问题中,联合概率未知,只知道个观测样本式(1),因此期望风险是不能直接计算的,最直观的方法是计算学习机器在有限个训练样本上的损失的平均值,并选择使它最小的函数作为学习机器,也就是
  式(6)的损失计算方法称为学习机器的经验风险,而通过使得经验风险最小来选择学习机器的训练方法称为经验风险最小化原则(Empirical Risk Minimization, ERM)。
  事实上,用EMR原则代替期望风险最小化并没有经过充分的理论论证,只是直观上合理的想当然做法,但这种思想却在多年的机器学习研究中占据了主要地位。人们多年来将大部分注意力集中到如何更好地最小化经验风险上。而实际上,即使可以假定当n趋向于无穷大时(6)式趋近于(2)式,在很多问题中的样本数目也离无穷大相去甚远,当样本的数目有限时,ERM原则并不能保证学习机器的期望风险最小。
  1.3 复杂性与推广能力
  EMR原则不成功的一个典型的例子是神经网络的过学习现象,也就是当经验风险达到最小时神经网络的推广能力反而变差的现象。开始,很多注意力都集中在如何使更小,但很快就发现,训练误差小并不总能导致好的预测效果。某些情况下,训练误差过小反而会导致推广能力的下降,即真实风险的增加,这就是过学习问题。
  之所以会出现过学习现象,一是因为样本不充分,二是学习机器设计不合理,
  这两个问题是互相关联的。设想一个简单的例子,假设有一组实数样本(x,y),y在[0,1]之间取值,那么不论样本是依据什么模型产生的,只要用函数去拟合它们(是待定参数),总能够找到一个使训练误差为零,但显然得到的“最优”函数并不能正确代表真实的函数模型。究其原因,是试图用一个十分复杂的模型去拟合有限的样本,导致模型丧失了推广能力。
  在神经网络中,若对有限的样本来说网络学习能力过强,足以记住每个样本,此时经验风险很快就可以收敛到很小甚至零,但却根本无法保证它对未来样本能给出好的预测。由此可看出,有限样本情况下,(1)经验风险最小并不一定意味着期望风险最小;(2)学习机器的复杂性不但应与所研究的系统有关,而且要和有限数目的样本相适应。
  作者简介:
  刘丹(1979-),女,辽宁省铁岭市人,硕士研究生,讲师,毕业院校:东北师范大学,研究方向:电子技术。
其他文献
[摘 要]本文先提出了农村水利可持续发展的内涵,然后详细论述了农村水利可持续发展的对策。  [关键词]农村水利;可持续发展  中图分类号:F323.2 文献标识码:A 文章编号:1009-914X(2016)21-0222-01  1.可持续发展农村水利  农村水利的可持续发展是我国实现可持续发展的关键。是经济社会可持续发展的重要组成部分,并占有极其重要的地位。可持续发展的农业保护了农村的自然资源
期刊
中图分类号:TN95.36 文献标识码:A 文章编号:1009-914X(2016)21-0225-01  随着我国经济的快速发展,人们对居住环境的要求越来越高,在城市建设中,旧城改造是老百姓十分关心的课题。园林景观在此改造中发挥着重要的作用。本文在分析实例的基础上,探讨了如何做好城市旧城区的园林改造工作。  1 城市旧城区园林景观的现状及存在问题  随着经济实力的增强、生活水平的提高,市民对具有
期刊
[摘 要]城市化进程的高速发展下,如何切实保护耕地,寻找城市发展与耕地资源保护的契合点是我国走可持续发展道路以及实现全面建设小康社会目标等要解决的关键性问题。故在本文中主要对城市化进程中耕地保护问题进行了简单的分析与探讨。  [关键词]城市化进程;耕地保护;问题分析  中图分类号:S731.2 文献标识码:A 文章编号:1009-914X(2016)21-0226-01  1、我国城市化进程中耕地
期刊
[摘 要]在杨树整个生长过程中,如果忽视日常管理与病虫害防治,极易使苗木质量受到影响,不利于优质高产目标的实现。本文就杨树病虫害的防治方法谈几点看法。  [关键词]杨树;病虫害;防治方法  中图分类号:U416.2 文献标识码:A 文章编号:1009-914X(2016)21-0224-01  1.杨树常见病害及防治方法  1.1 杨树黑斑病  杨树黑斑病又称褐斑病,引起早期落叶。此病害的显著特点
期刊
[摘 要]林业是国民经济的基础产业之一,在实现经济、社会可持续发展中,林业具有不可替代的作用。因此,我们必须切实做好森林生态环境保护工作。  [关键词]森林;生态环境;保护;意义;策略  中图分类号:S68 文献标识码:A 文章编号:1009-914X(2016)21-0223-01  1.制约森林生态环境保护的因素  1.1 森林管理滞后  我省有造林的漫长历史和丰富的技能。历届政府都十分重视造
期刊
[摘 要]随着我国国际地位的不断提升, 科学技术也得到了迅猛的发展,为农业生产提供了很多便利条件。耕整地机械在农业生产中的广泛应用,不仅方便了农民的生产生活,而且还促进了农机生产企业的发展。耕整地机械具有工作效率高、对土地结构破坏小、工作面积大等优点,因而得到广大农民群众的认可。在农业耕作能力需要进一步发展的情况下,对耕整地机械进行研究、改进、创新及推广工作,对于农业发展具有重要的现实意义。  [
期刊
[摘 要]物体的色彩是由固有色、光源色和环境色三大部分组成。一个物体色彩的形成都会受到这三方面的因素的影响。两种不同的观察方法:条件色的观察方法和固有色的观察方法。  [关键词]色彩;固有色;光源色;环境色;条件色;整体;观察  中图分类号:G712 文献标识码:A 文章编号:1009-914X(2016)21-0236-01  世界是丰富多彩的,自然界是五颜六色的。自从牛顿在实验室里把白光引进了
期刊
[摘 要]2010—2013年澜沧县掀起生态茶园建设高潮,全部茶园已建设成生态茶园,为了更好的开展茶园技术服务,对生态茶园建设病虫草害防控提出本人见解。  [关键词]生态茶园 茶树病虫害 防控 探讨  中图分类号:S435.7 文献标识码:A 文章编号:1009-914X(2016)21-0229-01  澜沧位于世界茶树原产地的中心地带,是驰名中外普洱茶的发祥地,种茶、制茶、饮茶、贸茶的历史悠久
期刊
[摘 要]面对日益严峻的水资源短缺现象,海绵城市建设规划成为了解燃眉之急的高效利用水资源的规划项目。大力推进建设自然积存、自然渗透、自然净化的海绵城市,是节约水资源,保护和改善城市生态环境,促进生态文明建设的必要措施。不同城市现状决定了海绵城市建设规划要因地制宜,利用低影响开发技术实现雨水的综合利用。  [关键词]海绵城市;规划;技术  中图分类号:S732 文献标识码:A 文章编号:1009-9
期刊
[摘 要]随着我国经济的不断发展,对于电力的需求也越来越大,因此对操作人员综合素质的要求也越来越高,在电力工作中存在很多特殊工作,特殊工作人员的安全问题成为人们关注的焦点,为了保证电工特种工作人员的安全,要对特种作业人员进行安全教育,因此本文对特种工作人员的安全教育进行了分析,对特种工作人员安全教育有一定的借鉴意义。  [摘 要]电工;特种工作人员;安全教育  中图分类号:G712 文献标识码:A
期刊