XGBoost算法在二分类非平衡高维数据分析中的应用

来源 :中国卫生统计 | 被引量 : 0次 | 上传用户:jizhe1983621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的探讨XGBoost算法在二分类高维非平衡数据中的分类判别效果。方法通过模拟实验及真实代谢组学数据分析,对XGBoost、随机森林、支持向量机、随机欠采样以及随机梯度提升树共五种方法进行比较。结果模拟实验显示,XGBoost算法在数据非平衡较明显时,在各种实验条件下均优于或不劣于其他四种算法,在数据类别趋于平衡的情况下也同样具有较好的分类效果,且对噪声变量具有一定的抗干扰能力。实例分析显示,与其他四种算法相比,XGBoost算法的分类性能最优,且在保证分类效果的基础上具有更快的运算速度。结论 XGBoo
其他文献
The present situation of cosmetic raw materials has been introduced,mainly including the measures of risk analysis and quality control for cosmetic raw material
目的了解我国公共卫生硕士专业学位研究生的培养现状,探究培养质量影响因素,发现问题提出对策,为我国公共卫生硕士专业学位研究生培养提供依据。方法采用自编问卷对28所开设
目的研究季节性自回归分数差分移动平均(SARFIMA)模型预测肾综合征出血热(HFRS)发病率的效果,并与SARIMA模型进行比较。方法收集山东省2009年1月至2018年12月HFRS月发病数据,
目的探讨糖尿病及高血压在独立与联合模式下,其并发冠心病和/或脑卒中两种心脑血管并发症的患病风险差异。方法采用多阶段分层随机抽样方法抽取长沙市19812名18岁及以上社区
目的分析北京地区肺结核患者治疗结局的影响因素。方法以2016-2018年北京市登记的肺结核患者为研究对象,通过构建两水平回归模型分析影响肺结核患者治疗结局的相关因素。结果