【摘 要】
:
估计统计模型的期望预测误差是统计机器学习的核心任务之一。期望预测误差估计的好坏对后续的模型选择问题、不同模型预测误差差异的显著性检验问题以及变量选择问题均有着显
论文部分内容阅读
估计统计模型的期望预测误差是统计机器学习的核心任务之一。期望预测误差估计的好坏对后续的模型选择问题、不同模型预测误差差异的显著性检验问题以及变量选择问题均有着显著的影响。为了找到一个优良的估计,研究者们提出了大量的估计方法,例如,MDL方法,交叉验证方法,Bootstrap方法以及它的改进.632Bootstrap方法。其中,交叉验证是一种最常用的泛化误差估计方法。本文主要针对统计机器学习分类问题,对已有交叉验证方法的优缺点进行了分析和总结,并在此基础上对交叉验证方法进行了改进。对于组块3×2交叉验证来说,它虽然具有折数低、对数据集切分均匀、实验次数少等特点,但是5×2交叉验证、10×2交叉验证对于分类问题也同样具有不错的效果,而且对于分组2折交叉验证的方法,随着实验次数的增加会一定程度上提高实验结果。但是如何解决实验性能与实验开销间的矛盾,如何确定合理的实验次数一直都是机器学习领域的难题,为此我们尝试对组块3×2交叉验证进行了改进和推广,提出均衡7×2交叉验证和均衡11×2交叉验证,并在此基础上总结出更一般化的均衡m×2交叉验证(BCVM×2)同时给出了其具体构造方法。我们推荐使用均衡m×2交叉验证方法来确定实验次数,以此来提高实验效果,并且通过理论分析和模拟实验佐证了我们的设想。对于分类学习中的模型选择任务,我们同样应用均衡m×2交叉验证方法。综合考虑均衡m×2交叉验证模型选择方法的各种影响因素,可以判断运用m×2交叉验证进行模型选择效果要优于常用的5折、10折交叉验证。我们通过模拟实验支持了以上判断,并且从理论上证明了均衡m×2交叉验证同样具有选择一致性。因此,可以说明均衡m×2交叉验证是一种更适合分类问题的模型选择方法。
其他文献
Cemented tailings backfill (CTB) is made by mixing cement, tailings and water together, thus cement hydration and water seepage flow are the two crucial factors
随着纳米科学和技术的发展,纳米材料和纳米元器件得到了广泛关注和研究。在纳米尺度,由于表面和界面在整体中所占比例显著增加,其影响逐渐重要,使得纳米材料和纳米结构元器件
差分方程组在物理学、天文学、现代生物学、人工神经网络、经济学等很多领域都有着非常广泛的应用,但目前对于非线性差分方程组我们只能对其解进行定性分析,却很难求出其精确解
为提高小麦的耐盐性,以农杆菌介导的生长点转化法将TaCHP基因导入小麦品种‘济南17’和‘济麦22’中。经潮霉素涂抹和PCR检测,T0代转基因植株的阳性率分别为6.7%和5.8%;T1代
本文依据弹性力学中的小变形理论,建立了人体-弹性织物系统的静态力学模型。通过模型及适当假设建立正问题,得到关于弹性织物位移函数的椭圆型偏微分方程组边值问题,利用有限差
水平步,上步和下步加权分别为α,β和γ的Motzkin路称作加权Motzkin路.在x轴没有水平步的加权Motzkin路称作加权Riordan路.第一章,给出了关于组合数学中的格路和Riordan矩阵的一些概念和记号.第二章,主要研究了加权Motzkin路和加权Riordan路.首先用符号化方法生成Motzkin路和Riordan路,借助Riordan矩阵的A序列和Z序列,考虑了加权Motzkin
While various kinds of fibers are used to improve the hot mix asphalt (HMA) performance, a few works have been undertaken on the hybrid fiber-reinforced HMA. Th
Hopf代数是代数学的一个重要研究领域,起源于上世纪四十年代,是Hopf在研究Lie群的拓扑性质时发现的一种既有代数结构又有余代数结构的代数系统.在过去的三十多年里,随着量子群的
请下载后查看,本文暂不支持在线获取查看简介。
Please download to view, this article does not support online access to view profile.