论文部分内容阅读
在传统工业界中,机器学习模型的主要任务是解决现实生活中的问题,更偏向应用模型于数据,而不会解释模型为什么会取得如此好的效果。而在另外一些特定领域,如金融领域,在这一领域,我们不能像传统机器学习模型那样,将训练数据流入黑盒模型,训练出一个函数(这个函数也可以称之为模型),输入新的数据到该函数得出预测结果,这些是不够的,我们还要对模型进行可解释性分析,可解释性对于模型的验证和改进有着十分积极的意义,如何解释该模型,它是如何预测的,模型的可信度体现在哪里,这些对于银行业务的开展至关重要。只有做到这些,我们才能真正将机器学习模型应用于银行金融创新领域,让机器来学习人的经验,给予管理者们更好的决策,实现金融行业的目标营销,真正做到运用数据的能力和机器学习模型来解决金融实际问题。银行作为金融领域的主要代表,其主营业务之一是定期存款,但是互联网的飞速发展对银行的金融理财产品造成了很大的冲击,越来越多的人选择将银行的定期存款业务转向互联网金融理财产品,这对银行来说意味着客户资源的大量流失。银行的目标是精准营销,就是找到具有终身价值的客户,或者说是选择在银行进行终身定期存款的客户,然后维护客户和银行的长期合作关系,让他们选择银行的理财产品。而银行管理者总是希望风控分析师能够很精准的预测客户是否会认购银行的产品,影响客户认购的影响因素有哪些以及如何改进,这些都对银行的经济效益起到了至关重要的作用,并且希望能够确定哪些是能够帮助银行实现营销收入超过预期成本的优质客户,真正实现银行理财产品的精准营销。本文以银行客户是否认购定期存款的21个影响因子为基础,主要从以下三个方面进行模型的可解释性分析:一是在建立模型之前的可解释性方法,主要是从数据本身出发,利用数据分析的方法,从数据中挖掘规律,对数据的分布和特征关系有一个全面的了解,然后进行数据可视化、特征工程、非平衡数据处理等工作;二是建模中的可解释性,本文将集成学习模型和深度学习模型LSTM相结合进行预测,使用召回率、精确率、准确率、AUC值作为模型评价指标。由于集成学习模型具有很强的可解释性,但是深度学习模型的可解释性很弱,因此需要对深度模型进行可解释性分析,主要使用代理模型的方法来解释深度学习模型;三是在构建模型之后使用可解释性方法,这些方法是与模型相关联的。还有一些方法称之为模型无关的解释,包括特征重要性分析、部分相关图、个体条件期望图、Shapley值等方法。通过三个方面的可解释性分析,使我们更加透明地了解模型,增加模型的可信度,这对于客户是否订购定期存款有很好的解释,有利于银行针对客户特征进行精准营销,增加银行的收益。