论文部分内容阅读
随着银行业的发展,银行客户的信息量急剧增长,为更好的为银行客户提供有效的金融服务,银行从业者需要对客户进行细分,根据客户特征将客户分成不同的类别,然后针对不同类别的客户特点制定相应的服务策略。近年来树形算法在数据挖掘领域备受关注,逐渐成为学者研究的热点领域。树形算法在处理分类问题时具备多方面的优势,其中包括能够有效的处理大量高维且结构复杂的数据、对于异常值和噪声点有较强的容忍度、还可以更加直观的解释结果等,是最常用的CRM(客户关系管理系统)客户细分技术。论文首先讨论了银行客户细分问题的产生与研究意义,全面的分析了客户细分的重要性,为论文提供了理论上的支持;随后讨论了基于内存的分布式计算工具Spark,Spark处理大数据量具有非常明显的优势,在处理实证数据时发挥了重要作用;最后,重点讨论了四种树形算法在银行客户细分问题中的应用,详述了决策树C4.5算法、决策树CART算法、平衡随机森林BRF算法和GBDT算法的原理,并对GBDT算法在最终结果加权问题上进行了调整,在Spark上编程实现了这些算法,分别处理了银行客户数据并得出结果。根据各树形算法在实证数据中的表现进行分析,最终研究得出平衡随机森林在银行客户细分中的表现最好。论文的主要创新点在于将树形算法引入到银行客户细分中,并通过实证检验了其预测能力;同时探索了分布式计算平台Spark,解决了处理大数据的问题;最后对GBDT算法在权重问题上进行了改进。