论文部分内容阅读
本文主要运用数据挖掘中的决策树技术对经过预处理后的个人住房贷款挖掘数据集中的数据进行分析,发现隐藏在大量数据中的隐含模式,最终得到个人住房贷款风险评估模型。本文研究的内容主要包括数据采集、数据预处理以及模型的建立,而这三部分又是基于数据挖掘以及决策树的相关理论,根据业务需求并按照数据挖掘工作的一般步骤展开的。论文针对我国商业银行信贷资产质量低下和风险加大的客观情况,借鉴外资银行应用数据挖掘决策树技术建立客户信用评价系统的成功经验,在明确挖掘目的的前提下,深入理解数据挖掘、决策树、数据采集、数据预处理、聚类分析以及模型评价等方面的相关概念。在此基础上,结合本文研究的问题以及数据的特点,通过各种方法的分析与比较,用适合的数据采集和预处理方法对数据库中的一半数据进行处理,建立适合挖掘的数据集,应用决策树C4.5算法以及聚类k-平均算法对这些数据进行挖掘和分析,通过计算风险度量值和决策影响程度值,确定每个属性各个取值的分数值,得到个人住房贷款风险评估模型。最后使用剩余的一半数据作为测试样本来评价这个模型,证明此模型具有较强的预测能力,是当前商业银行可以采用的最优模型,值得在实践中推广。具体来说,本文的研究内容主要有以下几个方面:1.针对我国个人住房贷款违约率上升的现象,借鉴国外银行取得的成果,提出使用数据挖掘决策树技术构建个人住房贷款风险评估模型将会给商业银行带来很多直接效益。2.通过数据挖掘分类算法的比较,选择决策树技术以及经典的C4.5算法作为本研究使用的算法,并介绍其基本理论。3.依据数据挖掘步骤,明确挖掘目的,以某商业银行个人信贷数据为分析对象,分析研究个人住房贷款原始数据库的数据,通过随机序列发生器,从中随机抽取一半数据作为本研究的样本数据,得到个人住房贷款处理数据集,为数据挖掘后续步骤奠定数据基础,另外一半将被用来测试。4.兼顾数据质量和计算效率,对一些重要的预处理方法深入地研究和实践,选择较为完善的预处理方法对个人住房贷款处理数据集进行了一系列的处理,得到适合挖掘的个人住房贷款挖掘数据集。5.在数据挖掘及决策树理论的指导下,使用决策树分类技术和聚类技术,应用C4.5算法计算信息增益率创建决策树,在此基础上,计算风险度量值和决策影响程度值得到个人住房贷款风险评估模型,进而通过聚类k-平均算法划分风险评估等级。6.使用原始数据库中的另一半数据对个人住房贷款风险评估模型进行测试和评价,证明其预测准确率较高,稳健性好,易于理解,效率高,推广能力强。