交叉验证中数据分布对分类性能的影响分析

被引量 : 19次 | 上传用户:zhangjun3812
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习中常用交叉验证方法估计各种模型性能。目前,很多研究者的工作已经揭示了期望预测误差的交叉验证估计的一些性质,并且给出了一些改进交叉验证估计的方法和思想。例如,多次重复使用交叉验证来减少估计的方差;使用分层交叉验证方法来减少原有的交叉验证估计的偏差。但是,这些工作仅仅是以得到期望预测误差的良好估计为目标的,对于其它的分类模型性能指标并未涉及,例如,准确率,召回率,F值,ROC,AUC等。本文主要针对自然语言处理中常用的四种模型评价指标(准确率P、召回率R和F值、精确率A),研究了它们的标准2折交叉验证估计随着观测中类别分布的不同以及设计矩阵分布的不同的性能指标的变化情况。为此,本文针对两类分类问题限定分类算法为LOGISTIC回归模型和设计矩阵仅为0-1矩阵的情况下进行研究。本文基于一些随机产生的模拟数据,进行了大量的模拟实验。实验的结果表明:(1)对于样本的类别分布:当2折交叉验证的两份数据中的类别分布相同或相近时,准确率、召回率、F值及精确率的2折交叉验证估计的偏差最小,且估计的偏差随着2折交叉验证中类别的差异增加而增加。当2折交叉验证中数据的类别分布相差较大时,模型性能明显的变差。因此,采用交叉验证切分数据时,应尽量保持每份数据的类别分布与总体一致。(2)对于设计矩阵的分布:当2折交叉验证的两份数据中的类别分布相同或相近时,而设计矩阵分布之间有差异的时候,估计的偏差随着2折交叉验证中设计矩阵分布的差异增加而增加,因此,用交叉验证切分数据时,应尽量保持每份数据的类别分布与总体一致,也要尽量保持设计矩阵分布也相一致。(3)尽管研究者认为,在对数据集进行切分时,除了保证类别分布一致外,应尽量保证设计矩阵的分布也尽量一致。但是,对于设计矩阵为0-1矩阵时,尤其是设计矩阵维数很高时,很难找到一个很好的度量指标来度量设计矩阵分布的一致性。本文试图使用KL距离来给出相应的度量,但是,该度量在高维特征矩阵下失效。
其他文献
概念设计的本质是将设计问题定义为期望的功能,并求解能实现该功能的物理方案。该阶段的工作具有最大的创新空间,同时也具有巨大的不确定性与模糊性。现有的概念设计理论与方法
近年来,随着我国政治、经济的繁荣发展,整个社会的发展也呈现欣欣向荣的姿态,当然也面临着各种挑战。公共服务领域的不完善和民生工作的持续推进,迫切要求党和政府在执政过程
本文分析了晋城全域旅游的现状,并就打造晋城全域旅游存在的问题,从一票通攻略、行业协会合作、专业文化旅游与内涵提升、搭建国际旅行社、发挥院校人才优势、发挥旅游职教集
1990~1992年,进行了大弹涂鱼养殖技术研究,得出:饵料培养的最佳施肥标准:鹌鹑粪和米糠各为30g/m ̄3,硅酸盐、铁盐适量;放养密度可根据不同苗种规格(全长3~11cm),在10~3尾/m ̄2调选;食性分析结果:大弹涂鱼主食底栖硅藻,并食
第一章:简述大枣中的功效成分,综述关于大枣功效成分的分析方法、提取手段等的国内外研究现状及进展,并在此基础上提出了本论文的研究内容及创新之处。第二章:建立了同时检测大
当前,随着我国新农村建设宏伟目标的提出,农村科普更加显示其重要性,然而,我国农村科普存在的诸多问题,严重制约着社会主义新农村建设。笔者认为,整合农村各类科普资源,是农
农业弱质性特征决定了农业信贷的高成本、高风险,农业信贷风险成为制约金融支持新农村建设的主要障碍。通过财政、金融等各种政策对农业进行保护和支持已成为国际惯例。完善
伴随着新世纪钟声的敲响,我国无论在政治、经济、文化还是社会生活方面都发生了翻天覆地的变化。尤其是当历史的车轮进入九十年代之后,各种西方文学思潮的涌入、网络信息传播的
在激烈的商业银行竞争中,国内外商业银行使出浑身解数提升自身的竞争能力。美国《财富》杂志:2011年中国建设银行在世界企业500强中排名第108位,在中国企业500强中排名第9位。
伴随着网络和多媒体获取技术的快速发展,数字图像的数量急剧增长。如何从海量数字图像集合中为用户快速检索目标图像,已成为信息领域亟待解决的关键问题。在此背景下,图像检