基于均衡5x2交叉验证的分类算法对照研究

来源 :山西大学 | 被引量 : 3次 | 上传用户:gongzi8886
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在统计机器学习中,当一个新的算法提出时,往往需要与已有的算法进行性能对照,然后使用统计显著性检验得出新算法性能是否提高的结论.本文结合组块3×2和随机5×2交叉验证提出了一种任意两组训练集(测试集)重叠样本个数相等的新的均衡5×交叉验证,给出了均衡5×2交叉验证F检验,理论上分析了该检验统计量及其自由度的性质,并基于均衡5×2交叉验证检验在单个和多个数据集上对两个分类算法的性能进行了对照.基于2折交叉验证5次独立重复的联合5×2交叉验证F检验是单个数据集上算法性能对照的常用检验,然而数据的重复使用使得检验统计量的有效自由度低于其理论值,这样容易导致其检验有较大的第一类和第二类错误.注意到随机5×2交叉验证中组内和组间的相关性依赖于训练集(测试集)的重叠样本个数,但是它的随机划分使得训练集(测试集)重叠样本个数不尽相同,从而使得其检验统计量的理论分析无法进行.为此本文提出了均衡5×2交叉验证F检验.均衡的划分使得五组重复中组内和组间相关性相同,这样才可进行其检验自由度的理论分析.相应地分析发现主要是组间相关性影响了检验的自由度,为此给出了校正自由度的均衡5×2交叉验证F检验.另外,类似于文献中的组块3x2交叉验证t检验本文提出了均衡5×2交叉验证t检验.通过模拟实验证明本文提出的均衡5x2交叉验证t检验和均衡5×2交叉验证F检验(自由度为(7,5))在进行两个分类算法对照时有较好的性能.进一步,将均衡5×2交叉验证及其检验推广到均衡m×2交叉验证,并从理论上分析了该交叉验证的F检验统计量及其自由度的性质,但通过对方差的理论分析和势函数的模拟发现m选取5是比较合适的.然而,相同的检验在不同的数据集上检验的结果可能不同,为此本文考虑基于多个数据集的两个分类算法性能对照,这样得到的检验结果将具有更好的泛化性.本文将均衡5×2交叉验证应用到已有的成对t检验,修正成对t检验和Wilcoxon符号秩和检验,并通过模拟实验得出基于均衡5×2交叉验证和10折交叉验证的修正成对t检验都有较好的性能.
其他文献
目前,DEM广泛应用于众多领域,较为常用的使用地形图数据进行构建。不同的使用目的、数据来源、地貌类型,其所构建的DEM呈现出一定的差异性,然而并没有一种通用的插值算法满足
同余式课题是组合数论的主要内容之一,近年来许多数学家在这方面进行了深入的研究.在本篇论文中,我们得到了一个关于n阶q-Lucas数的同余式,并应用组合的方法来进行证明,还基
传统药用植物蕴藏着大量未知微生物资源,而且存在许多具有生物活性的功能菌株,是寻找微生物新物种和新天然产物的极好材料。本课题组在调查秦岭太白山“太白七药”药用植物内
水稻是世界上最重要的粮食作物之一,全球约二分之一以上的人口以稻米为主食,因此提高水稻的产量和品质尤为重要。随着水稻基因组测序工作的完成,水稻功能基因组学已经成为水
北京正负电子对撞机Ⅱ(BEPCⅡ)和北京谱仪Ⅲ(BESⅢ)是在τ-粲能区,针对第三代轻子τ和第三代粲夸克c进行研究的高亮度实验设备。本论文基于BEPCⅢ/BESⅢ作了两个方面的研究工
多铁性材料铁酸铋(BiFeO3)以其远高于室温的铁电、铁磁转变温度和巨大的铁电极化和磁电耦合效应而成为多铁领域最具应用潜力的材料,同时可实现电场对其晶格、电荷、电子轨道
设G=(V(G),E(G))是一个简单图.对V(G)中的任意一顶点υ赋值f(υ),其中.f(υ)∈{-1,+1}.设N(υ)是顶点υ的邻域,记N[u]=N(v)∪{u}.令如果对任意u∈V(G),f[u]≥1均成立,则称/是
利用重正规化群方法(RG方法),Kirkinis在[E. Kirkinis, SIAM Review 54 (2012) 374-388]文章中得到了Duffing非线性振动方程的一个渐近解(RG解).之后Kirkinis又在文章最后提
疟疾,是由疟原虫感染引起的一种虫媒传染病.当前在世界上很多地方,疟疾仍然威胁着人类健康.众所周知,数学模型广泛用于研究传染病的动力学行为.作为最早的疟疾模型,Ross-Macd
本文主要对中国云南省高黎贡山的光盔蛛科和圆颚蛛科的蜘蛛(蛛形纲:蜘蛛目)进行分类学研究,全文包括了总论、各论、结果与讨论以及图版与彩照四部分:总论部分基于文献综述、国