论文部分内容阅读
随着数据时代的到来和数据挖掘技术的广泛应用,银行金融产品不再是以前单一的、广泛式的撒网销售,而是依托于大数据的智能分析和算法的准确判断,进行多样化的精准营销。电话营销作为银行业传统的营销方式,在获取客户方面是行之有效的。传统的银行电话营销方式由于随机性、低命中率,难以满足时代发展的需求。如何利用好银行数据库中的各种数据,进行科学有效的电话营销,是实现银行数字化、网点智能化的关键所在。本文的研究对象是预测银行电话营销的结果,由于行业特点,银行客户数据集是不平衡的。目前的银行电话营销研究大多集中在提升模型效果上,虽然模型预测结果都不错,但由于模型训练选取的数据集多为平衡数据集,改变了数据集原有的分布,且仅凭一两个指标便选出最优模型,不够全面,与实际应用有所偏差。因此,本课题从数据层面出发,结合数据集的分布,利用数据挖掘工具,综合考虑多个评价指标,研究不平衡数据集的各种采样策略对模型效果的影响,对比得到最佳采样策略,寻找最佳采样策略下的最佳模型,以此来提高模型预测的效果和营销成功率,实现精准营销。最后,对预测错误的样本进行了统计分析,并根据预测结果进行客群分类,挖掘潜在客户具有的特征,从增加银行收益和降低获客成本两个方面,为银行电话营销提供切实有效的建议。本文实验数据集选自UCI网站的葡萄牙银行数据集,共有41188条,正负比例为1:7.8。我们按照8:2的比例将数据集划分为训练集和测试集,利用ENN、Borderline-SMOTE、SMOTE+ENN和本文提出的TS采样等方式对训练集采样,接着用逻辑回归、决策树、XGBoost、Light GBM等分类模型对采样数据训练。通过综合分析F1值、KS值、AUC值等评价指标发现,ENN采样在各个模型上的综合效果最好,且ENN采样下的Light GBM模型预测效果最佳。本文提出的TS采样效果不明显,经分析,主要原因是采样过程中样本信息重复利用,容易过拟合。另外,通过ENN客群分类发现,潜在客户的特征和营销成功客户的特征十分相似,主要表现在以下方面:年龄在31岁到50岁的中青年;具有高中及以上的学历;工作较为稳定,比如技术员、管理员等职业;婚姻状况稳定的结婚人士;无不良记录,比如违约贷款,房贷;比较青睐于cellular这种联系方式等特点。