论文部分内容阅读
分类问题是日常决策中经常遇到的问题。传统的分类算法前提假设是数据集的类别均衡或者每一类的错分代价一样,但是在现实中面对的数据集一般是不均衡的,特别是医疗诊断、商品搭售推荐等领域,因此研究不均衡数据集分类问题对解决实际问题很有价值。本文首先通过文献分析,详细地介绍了数据集层面和分类算法层面对不均衡数据集分类问题的现有解决方法。提出了利用复合XGBoost模型,即重采样算法和XGBoost算法相结合的方法,对不均衡数据集进行二分类预测,并将该模型应用于用户商品偏好的预测中。本文在构建用户商品偏好预测模型时,从四个方面选取了31个特征变量,通过建立逻辑斯蒂回归模型、复合逻辑斯蒂回归模型、AdaBoost模型、随机森林模型、XGBoost模型及复合XGBoost模型,对用户是否会购买推荐的产品B进行了预测。利用Recall、F1值、AUC值等指标进行对比分析,结果表明复合XGBoost模型中的EasyEnsemble-XGB模型的分类预测效果最好。通过EasyEnsemble-XGB模型特征重要性分析,得出五个重要特征,这些信息可以更好地刻画目标用户。在不均衡数据集分类模型的实际应用中,本文提出要根据实际业务目标来调整阈值以输出分类标签,而不是固定使用0.5作为分类阈值。