论文部分内容阅读
在统计机器学习中,当一个新的算法提出时,往往需要与已有的算法进行性能对照,然后使用统计显著性检验得出新算法性能是否提高的结论.本文结合组块3×2和随机5×2交叉验证提出了一种任意两组训练集(测试集)重叠样本个数相等的新的均衡5×交叉验证,给出了均衡5×2交叉验证F检验,理论上分析了该检验统计量及其自由度的性质,并基于均衡5×2交叉验证检验在单个和多个数据集上对两个分类算法的性能进行了对照.基于2折交叉验证5次独立重复的联合5×2交叉验证F检验是单个数据集上算法性能对照的常用检验,然而数据的重复使用使得检验统计量的有效自由度低于其理论值,这样容易导致其检验有较大的第一类和第二类错误.注意到随机5×2交叉验证中组内和组间的相关性依赖于训练集(测试集)的重叠样本个数,但是它的随机划分使得训练集(测试集)重叠样本个数不尽相同,从而使得其检验统计量的理论分析无法进行.为此本文提出了均衡5×2交叉验证F检验.均衡的划分使得五组重复中组内和组间相关性相同,这样才可进行其检验自由度的理论分析.相应地分析发现主要是组间相关性影响了检验的自由度,为此给出了校正自由度的均衡5×2交叉验证F检验.另外,类似于文献中的组块3x2交叉验证t检验本文提出了均衡5×2交叉验证t检验.通过模拟实验证明本文提出的均衡5x2交叉验证t检验和均衡5×2交叉验证F检验(自由度为(7,5))在进行两个分类算法对照时有较好的性能.进一步,将均衡5×2交叉验证及其检验推广到均衡m×2交叉验证,并从理论上分析了该交叉验证的F检验统计量及其自由度的性质,但通过对方差的理论分析和势函数的模拟发现m选取5是比较合适的.然而,相同的检验在不同的数据集上检验的结果可能不同,为此本文考虑基于多个数据集的两个分类算法性能对照,这样得到的检验结果将具有更好的泛化性.本文将均衡5×2交叉验证应用到已有的成对t检验,修正成对t检验和Wilcoxon符号秩和检验,并通过模拟实验得出基于均衡5×2交叉验证和10折交叉验证的修正成对t检验都有较好的性能.