复合XGBoost模型在不均衡数据集分类预测上的应用

来源 :兰州大学 | 被引量 : 13次 | 上传用户:axrczx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是日常决策中经常遇到的问题。传统的分类算法前提假设是数据集的类别均衡或者每一类的错分代价一样,但是在现实中面对的数据集一般是不均衡的,特别是医疗诊断、商品搭售推荐等领域,因此研究不均衡数据集分类问题对解决实际问题很有价值。本文首先通过文献分析,详细地介绍了数据集层面和分类算法层面对不均衡数据集分类问题的现有解决方法。提出了利用复合XGBoost模型,即重采样算法和XGBoost算法相结合的方法,对不均衡数据集进行二分类预测,并将该模型应用于用户商品偏好的预测中。本文在构建用户商品偏好预测模型时,从四个方面选取了31个特征变量,通过建立逻辑斯蒂回归模型、复合逻辑斯蒂回归模型、AdaBoost模型、随机森林模型、XGBoost模型及复合XGBoost模型,对用户是否会购买推荐的产品B进行了预测。利用Recall、F1值、AUC值等指标进行对比分析,结果表明复合XGBoost模型中的EasyEnsemble-XGB模型的分类预测效果最好。通过EasyEnsemble-XGB模型特征重要性分析,得出五个重要特征,这些信息可以更好地刻画目标用户。在不均衡数据集分类模型的实际应用中,本文提出要根据实际业务目标来调整阈值以输出分类标签,而不是固定使用0.5作为分类阈值。
其他文献
我国的英语课程长期以来受英语工具性的影响,普遍认为英语课程的主要任务就是教授语言知识,培养听、说、读、写的语言技能,而忽视了英语教学的人文性。随着社会的发展和课程
研究目的:1、了解体育课程资源开发在初中阶段的实施情况;2、以初中生心理健康与社会适应为目标对体育课程资源进行有效开发;3、通过此项研究为科学评价体育课程资源的开发和
清顺治二年(1645)九月十七日,是明末江南抗清志士夏允彝的殉难日。夏允彝在明末士林中,是一位颇有影响的人物。他生平著作虽丰,留下的却并不多。较为完整的《幸存录》,是他在
针对高强度水资源开发利用条件下流域水循环研究存在的问题,从认知、试验、理论、方法四个层次探讨了适应水资源开发利用条件的流域水循环的研究方法,构建一个以水资源配置模型
以内蒙古呼和浩特、锡林浩特和阿拉善盟3个地区太阳辐照气象参数为基础,选用Klein模型作为竖直面的辐射计算模型,利用Matlab仿真软件对这3个地区-90~90°太阳方位角内竖直
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
儿童是祖国的花朵、未来的栋梁、今后社会发展的中坚力量。在整个成长的过程中,他们是需要引导与教育的。社区教育作为社会工作服务的一种,为社区儿童提供教育服务的同时,促