论文部分内容阅读
机器学习中常用交叉验证方法估计各种模型性能。目前,很多研究者的工作已经揭示了期望预测误差的交叉验证估计的一些性质,并且给出了一些改进交叉验证估计的方法和思想。例如,多次重复使用交叉验证来减少估计的方差;使用分层交叉验证方法来减少原有的交叉验证估计的偏差。但是,这些工作仅仅是以得到期望预测误差的良好估计为目标的,对于其它的分类模型性能指标并未涉及,例如,准确率,召回率,F值,ROC,AUC等。本文主要针对自然语言处理中常用的四种模型评价指标(准确率P、召回率R和F值、精确率A),研究了它们的标准2折交叉验证估计随着观测中类别分布的不同以及设计矩阵分布的不同的性能指标的变化情况。为此,本文针对两类分类问题限定分类算法为LOGISTIC回归模型和设计矩阵仅为0-1矩阵的情况下进行研究。本文基于一些随机产生的模拟数据,进行了大量的模拟实验。实验的结果表明:(1)对于样本的类别分布:当2折交叉验证的两份数据中的类别分布相同或相近时,准确率、召回率、F值及精确率的2折交叉验证估计的偏差最小,且估计的偏差随着2折交叉验证中类别的差异增加而增加。当2折交叉验证中数据的类别分布相差较大时,模型性能明显的变差。因此,采用交叉验证切分数据时,应尽量保持每份数据的类别分布与总体一致。(2)对于设计矩阵的分布:当2折交叉验证的两份数据中的类别分布相同或相近时,而设计矩阵分布之间有差异的时候,估计的偏差随着2折交叉验证中设计矩阵分布的差异增加而增加,因此,用交叉验证切分数据时,应尽量保持每份数据的类别分布与总体一致,也要尽量保持设计矩阵分布也相一致。(3)尽管研究者认为,在对数据集进行切分时,除了保证类别分布一致外,应尽量保证设计矩阵的分布也尽量一致。但是,对于设计矩阵为0-1矩阵时,尤其是设计矩阵维数很高时,很难找到一个很好的度量指标来度量设计矩阵分布的一致性。本文试图使用KL距离来给出相应的度量,但是,该度量在高维特征矩阵下失效。