论文部分内容阅读
一、数据挖掘的概念
数据挖掘,又称数据库中的知识发现,数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程,是一门新兴的边缘交叉学科,涉及到机器学习、模式识别、数据库、数理统计、数据可视化、高性能计算、神经网络和空间数据分析等多门学科,被认为是目前具有广泛应用的一个重要的研究课题。
二、数据挖掘常用技术的种类
(1)人工神经网络。仿照生理神经网络结构的非线形预测模型,通过学习进行模式识别。(2)决策树。代表着决策集的树形结构。这是一种较常用的技术,决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如,在银行贷款申请中,要对申请的风险大小做出判断,常用的就是决策树方法。(3)遗传算法。基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。(4)近邻算法。将数据集合中每一个记录进行分类的方法。(5)规则推导。从统计意义上对数据中的“如果——那么”规则进行寻找和推导。
三、担保公司目前主要的风险
(1)信用风险。借款人由于经营不善或主观恶意等发生债务危机,无力全部或部分按时偿还信用社贷款,造成逾期、呆滞呆账等担保风险。(2)市场风险。主要指借款人在投资决策时或在生产经营中因市场行情变化致使生产经营无法继续维持或严重亏损,给信用社造成损失的可能性。(3)政策风险。主要是指由于各种经济政策和财政税收政策调整给借款人带来重大经营影响,间接给信用社造成贷款损失的可能性。(4)道德风险。第一,不按担保规则发放了一些提高担保公司营业额的担保业务,形成呆滞呆账。第二,与借款人恶意串通,采取种种手段欺骗上级部门,形成贷款无法按时偿还。第三,违规违法发放人情担保和向关系人进行担保,形成的各种损失。
四、决策树技术在担保业风险管理中的应用
(1)决策树的概念。决策树表示方法是应用最广泛的逻辑方法之一,它从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。决策树分类方法采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。所以从决策树的根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。决策树是一个类似于流程图的树结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶结点代表类或类分布。(2)决策树用于分类的步骤。决策树用于分类可分为两大步:建立决策树模型、使用模型进行分类。其中建立决策树模型包括创建决策树产生分类规则和对分类规则进行测试评估两个阶段。(3)预测客户风险等级的方法和过程。担保公司各种业务系统中存储了大量客户的数据,按照担保公司以前的客户风险等级分类方法,把这些客户分为正常、逾期、呆滞、呆帐四类,其中后三种贷款客户称为不良担保客户。目前有的担保公司开始实行新的客户贷款风险五级分类标准,即正常、关注、次级、可疑、损失五类。把以前的正常客户定义为低风险客户,逾期、呆滞、呆帐定义为高风险客户,现在的正常定义为低风险客户,关注、次级、可疑、损失定义为高风险客户。由于评定客户的属性特征不一致,将客户分为企业客户和个人客户两类。个人客户的主要特征属性有:贷款金额、贷款方式、家庭人口、贷款期限、借款人资信等级、资产负债率、年度家庭纯收入、当地平均水平、生产经营情况、销售及货款回笼、经营管理能力、借款人还款意愿、有无不良行为、保证人代偿能力、抵押物情况、担保状况总体评价。企业客户的主要特征属性有:贷款金额、贷款方式、贷款期限、借款人资信等级,资产负债率、主营业务利润、主营业务收入净额、销售利润率、同行业平均水平、总现金净流量、生产经营情况、产品市场需求情况、经营管理能力、借款人还款意愿、保证人代偿能力、抵押物情况、担保状况总体评价。对容易波动的属性采用取其平均值的做法,离散的属性通过建立序列对照的办法也可以用平均法。具体做法是,首先将历史业务数据、外部数据,经过清洗,转换,集成加载到数据库中,在数据库中建立可供挖掘的以预测客户风险为主题的数据集,对连续型数值属性进行离散化处理,然后以客户的特征属性为条件属性,类别属性为分类属性,用决策树算法分别对个人和企业的历史数据进行挖掘,得到潜在的分类规则,指导决策。
随着担保公司在风险管理中对数据挖掘技术的深入应用,数据挖掘技术的其他方法也将会越来越多的应用到风险管理中去,为担保业务的风险管理提供有力的技术保障。
参 考 文 献
[1]蔡皎洁,张玉峰.基于数据挖掘银行客户信用风险评级体系研究[J].情报杂志.2010(2):47~50
[2]顾庆锋.数据仓库、数据挖掘技术在信用社风险控制中的应用研究[D].镇江:江苏大学.2006
项目基金:本文系学院自然科学研究项目阶段性成果。
数据挖掘,又称数据库中的知识发现,数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程,是一门新兴的边缘交叉学科,涉及到机器学习、模式识别、数据库、数理统计、数据可视化、高性能计算、神经网络和空间数据分析等多门学科,被认为是目前具有广泛应用的一个重要的研究课题。
二、数据挖掘常用技术的种类
(1)人工神经网络。仿照生理神经网络结构的非线形预测模型,通过学习进行模式识别。(2)决策树。代表着决策集的树形结构。这是一种较常用的技术,决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如,在银行贷款申请中,要对申请的风险大小做出判断,常用的就是决策树方法。(3)遗传算法。基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。(4)近邻算法。将数据集合中每一个记录进行分类的方法。(5)规则推导。从统计意义上对数据中的“如果——那么”规则进行寻找和推导。
三、担保公司目前主要的风险
(1)信用风险。借款人由于经营不善或主观恶意等发生债务危机,无力全部或部分按时偿还信用社贷款,造成逾期、呆滞呆账等担保风险。(2)市场风险。主要指借款人在投资决策时或在生产经营中因市场行情变化致使生产经营无法继续维持或严重亏损,给信用社造成损失的可能性。(3)政策风险。主要是指由于各种经济政策和财政税收政策调整给借款人带来重大经营影响,间接给信用社造成贷款损失的可能性。(4)道德风险。第一,不按担保规则发放了一些提高担保公司营业额的担保业务,形成呆滞呆账。第二,与借款人恶意串通,采取种种手段欺骗上级部门,形成贷款无法按时偿还。第三,违规违法发放人情担保和向关系人进行担保,形成的各种损失。
四、决策树技术在担保业风险管理中的应用
(1)决策树的概念。决策树表示方法是应用最广泛的逻辑方法之一,它从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。决策树分类方法采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。所以从决策树的根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。决策树是一个类似于流程图的树结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶结点代表类或类分布。(2)决策树用于分类的步骤。决策树用于分类可分为两大步:建立决策树模型、使用模型进行分类。其中建立决策树模型包括创建决策树产生分类规则和对分类规则进行测试评估两个阶段。(3)预测客户风险等级的方法和过程。担保公司各种业务系统中存储了大量客户的数据,按照担保公司以前的客户风险等级分类方法,把这些客户分为正常、逾期、呆滞、呆帐四类,其中后三种贷款客户称为不良担保客户。目前有的担保公司开始实行新的客户贷款风险五级分类标准,即正常、关注、次级、可疑、损失五类。把以前的正常客户定义为低风险客户,逾期、呆滞、呆帐定义为高风险客户,现在的正常定义为低风险客户,关注、次级、可疑、损失定义为高风险客户。由于评定客户的属性特征不一致,将客户分为企业客户和个人客户两类。个人客户的主要特征属性有:贷款金额、贷款方式、家庭人口、贷款期限、借款人资信等级、资产负债率、年度家庭纯收入、当地平均水平、生产经营情况、销售及货款回笼、经营管理能力、借款人还款意愿、有无不良行为、保证人代偿能力、抵押物情况、担保状况总体评价。企业客户的主要特征属性有:贷款金额、贷款方式、贷款期限、借款人资信等级,资产负债率、主营业务利润、主营业务收入净额、销售利润率、同行业平均水平、总现金净流量、生产经营情况、产品市场需求情况、经营管理能力、借款人还款意愿、保证人代偿能力、抵押物情况、担保状况总体评价。对容易波动的属性采用取其平均值的做法,离散的属性通过建立序列对照的办法也可以用平均法。具体做法是,首先将历史业务数据、外部数据,经过清洗,转换,集成加载到数据库中,在数据库中建立可供挖掘的以预测客户风险为主题的数据集,对连续型数值属性进行离散化处理,然后以客户的特征属性为条件属性,类别属性为分类属性,用决策树算法分别对个人和企业的历史数据进行挖掘,得到潜在的分类规则,指导决策。
随着担保公司在风险管理中对数据挖掘技术的深入应用,数据挖掘技术的其他方法也将会越来越多的应用到风险管理中去,为担保业务的风险管理提供有力的技术保障。
参 考 文 献
[1]蔡皎洁,张玉峰.基于数据挖掘银行客户信用风险评级体系研究[J].情报杂志.2010(2):47~50
[2]顾庆锋.数据仓库、数据挖掘技术在信用社风险控制中的应用研究[D].镇江:江苏大学.2006
项目基金:本文系学院自然科学研究项目阶段性成果。