模型选择中的交叉验证方法综述

来源 :山西大学 | 被引量 : 309次 | 上传用户:wubaishan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,统计学习作为一门新型学科,无论是在理论还是在应用方面都得到了巨大的发展,有许多重大的突破,并被成功的应用到模式识别、数据挖掘、自然语言处理、语音识别、图像识别、信息检索等许多计算机领域中。模型的选择和评估在统计学习中起着至关重要的作用,因为模型的好坏直接影响预测的准确性。在模型的选择和评估方面,已经有许多的方法被提出和应用到实际中,其中交叉验证由于其简洁性和普遍性被认为是一种行之有效的办法,尤其是在可用的数据较少的情况下,通过对数据的有效重复利用,交叉验证充分显示了其在模型选择方面的诸多优点。交叉验证的主要思想是将数据分成两部分,一部分用于模型的训练,另一部分用于对训练好的模型进行预测误差的估计,最后选择预测误差最小的模型作为最优模型。另外,由于对数据切分方式和切分次数的不同交叉验证已经生成了许多种不同的方法,如何针对手中的数据选用合适的交叉验证方法已经成为了人们研究的重点。针对交叉验证的有关问题,许多学者进行了大量的研究,得出了许多卓有成效的结果,但仍有许多问题没有得到解决。本文主要是对前人的研究成果进行一次全面的总结,在一个统一的框架下对研究成果进行一次梳理,分析前人的研究成果,为后继研究者们提供有用线索,并就统计学习中如何根据已有数据用交叉验证进行模型选择给出规律性建议。
其他文献
我国西部民族地区的公共安全治理面临着转型期带来的问题与固有的民族、宗教问题交织并存的局面。本文在梳理出影响西部民族地区公共安全治理的主要因素后,从公共管理的角度
分析了研究中常用抑制切削颤振手段的抑制颤振机理和切削颤振在线监控技术的技术要点和研究现状.介绍了超高速切削、超声波振动切削等先进加工手段在抑制切削颤振方面的应用.
介绍了棉花颜色级实物标准构成,以及各级棉花的颜色特点,并对比品级实物标准说明棉花颜色级实物标准本身所具有的特点,这些特点弥补了品级实物标准本身的不足,从而说明了棉花颜色
例1 患儿女.12岁.因发现反复乏力、纳差、厌油8个月,再发5d于2006年7月18日第2次入院。患者于8个月前在我科住院诊断为病毒性肝炎(乙型)急性无黄疸型,给予甘草酸二胺和还原型谷胱甘
汽车噪声影响乘客乘车的舒适性,并且对环境造成噪声污染,而目前市场对具有更好降噪效果的汽车需求越来越大,因此,有效控制汽车噪声成为各大汽车厂商所要面对的难题之一。汽车
患者男,18岁。于3天前患者自觉下腹部疼痛,疼痛呈间断性,1天前患者出现发热。下腹可触及大小约6.0cm×5.0cm包块,局部压痛,无反跳痛。腹部彩超示:脐下腹肇至腹腔见一不规则低州声
压缩空气储能被公认为是一种比较适合大规模系统的储能技术。本文分析了压缩空气储能概况和工作原理,并通过压缩空气储能方面的专利申请为例子和脉络,分析了压缩空气储能的发
目的:观察乳腺癌淋巴结清扫术中保留上肢淋巴结对患者淋巴水肿及生活质量的影响。方法:选择110例乳腺癌患者作为研究对象,随机分为对照组和观察组,各55例。对照组采用常规腋
2003年10月,巴塞尔银行监管委员会就银行合规问题专门发布了题为《银行内部合规部门》的咨询性文件,明确合规风险管理是一项日趋重要且独立的风险管理职能。该咨询文件随即成
文章以上海和深圳证券交易市场为研究对象,选择2007年1月4日到2008年12月31日的上证综指和深证成指的每日收盘价共976个数据为样本,分别采用历史模拟法和方差-协方差法这两种