网络借贷违约风险分析

来源 :经济研究导刊 | 被引量 : 0次 | 上传用户:chtg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:以P2P网络借贷为例,从人人贷中选取2015—2018年共7 559条记录,通过数据挖掘模型来对借款人违约风险进行分析,并识别出影响借款人违约的主要因素,这些数据挖掘模型主要包括决策树、支持向量机和随机森林。主要结论包括:第一,运用数据挖掘模型来预测违约风险效果都很好,其中最好的是随机森林;第二,特征重要性程度前五依次为信用等级、借款金额、借款周期、借款利率、借款人所在企业的规模。
  关键词:P2P网络借贷;数据挖掘;违约风险
  中图分类号:F832        文献标志码:A      文章编号:1673-291X(2020)10-0088-04
  引言
  近年来,互联网与金融的结合更加广泛,互联网金融凭借其支付优势、流程优势等优势逐渐深入人心,同时也对我国经济的发展起到了很大的促进作用。其中,P2P网络借贷是互联网金融的一个分支。P2P网络借贷,通常是指个体和个体通过互联网平台进行的直接借贷活动。艾瑞咨询统计结果显示,截至2017年,我国网络借贷超过了2万亿元,且年增长率高达40%,用户高达2亿人,相较2016年增长23.1%,可见网络借贷发展之蓬勃。
  P2P网络借贷开始出现是在英国,因为其相较于传统银行更加方便,回报率高,很快便快速蔓延至其他国家。2007年6月,我国第一家P2P网贷公司成立,从此网络借贷在我国拉开了序幕。在2013年前,我国P2P网贷平台发展的很慢,属于萌芽期。2013开始,我国P2P网贷行业在用户和平台都开始爆发性增长。但是在爆发性增长的同时也伴随着很多风险,截至2017年,停业的P2P网贷平台已达1 500家,网贷平台坏账率普遍达到了10%以上,这显著高于传统金融机构。网贷平台的高风险,有一个主要原因是,网贷不需要抵押,借款人违约成本较低,如果出现很多借款人违约,则会对平台现金流产生影响,会影响平台的可持续发展。在此背景下,对借款者的违约风险进行分析显得尤为重要。
  本文主要运用数据挖掘的方法,基于数据借款人信息,找出影响借款人的违约因素,以期能给网贷平台和投资者提供些参考。本文选用的模型相对于传统的风险分析模型主要优势是,传统的模型大多需要设定参数,对前提假设有很严格的限制,如最小二乘模型要求数据必须符合正态分布、序列没有关联且没有噪声。Logistic要求自变量不能存在多重共线性,而数据挖掘对数据并无限制。
  一、文献综述
  由于网络借贷的快速发展,对金融业产生了较大的冲击,因此引起了学术界的广泛关注,中外学者对进行了很多关于网络借贷违约的研究。
  从违约风险来看。由于信息不对称使得投资人和网贷平台不能很好地评价借款人违约风险的大小,从而增加了投资者和网贷平台的风险(刘丽丽,2013)。同时由于网贷借款人在借款人并不是抵押借款,违约成本比较低,且贷款用途没有限制,这使得贷款风险显著增加(李渊琦、陈芳,2015)。社会资本的存在能有效降低借款人的违约风险,这些社会资本包括借款列表被推荐的额次数、是否加入小组、增加投资者中朋友的个数等等(缪莲英、陈金龙,2014)。通过使用多元线性回归模型对拍拍贷进行违约风险分析,发现随着年龄的增加违约风险越低(刘鹏翔,2017)。借款人声誉能有效缓解信息不对称,声誉变量包括借款人以往违约次数和借款成功次数为代表,实证得出借款人声誉对违约风险的识别效应,且如果借款人还款能力增加,这种识别能力也会增强(李鑫,2019)。以拍拍贷为例,研究学历在网络借贷上的作用,发现随着学历的上升,借款人逾期的风险越小,且借款成功的概率更高(程瑶,2018)。
  就研究模型来看,经典的预测借款人违约的模型,如Logistic、Probit,OLS预测效果有太多的约束,如对样本要求比较严格,在特征较为复杂的情况下,预测效果会大打折扣(Hill Griffiths and Lim,2011)。相较于经典的预测模型,数据挖掘模型对样本没有较多约束,且能应对更为复杂的自变量,通常情况下,预测效果好于经典预测模型(Goyal,A.and R.Kaur,2016)。
  二、模型选择
  本文所选用的数据挖掘模型包括支持向量機(SVM)、决策树(DT)和随机森林(RF),这三种模型都是监督学习算法,都是可以通过训练样本获得最优模型的。
  (一)支持向量机
  支持向量机的目标是创建一个平面边界,称为超平面,从而将具有不同性质的样本进行划分,划分的原则是间隔最大化。支持向量机从20世纪90年代开始快速发展,目前在很多领域都得到广泛应用。支持向量机可以将低维度空间样本分类的问题投影到高维度空间,从而可以在新的空间上得出最优超平面。
  目前,支持向量机模型常用来解决分类问题的核函数包括以下四种:线性核函数、多项式核函数、S形核函数以及高斯RBF核函数。本文所采用的是线性核函数,其设定如下:
  其中,xi表示第i个特征。
  (二)决策树
  决策树是一种有监督的算法,按照一定的划分规则,对数据进行持续的划分,最后根据根据投票结果进行分类。决策树在任何领域上几乎都能用,可以说是应用最广泛的数据挖掘模型了。决策树的算法主要包括ID3算法、GART算法和C4.5算法,本文采用的是C4.5算法。
  C4.5算法用信息增益率选择决策属性。C4.5算法有两个步骤,第一,先选取一个属性Ai,按照Ai的某个值将n维空间进行划分成两个部分。第二,按照第一步重新选择另一个属性进行划分,直到n维空间都被划分了。C4.5算法划分的标准是信息增益率(Info Gain Ratio)指标。假设数据集D有m个类别,数据D的熵可定义为:
  其中,pi表示类别i占样本的比率,数据集的种类越多,则Info(D)越大,当数据集只有一个类别时,Info(D)为0。现假定属性A对数据集D进行划分,且划分为K个Dj子集,则划分后的数据集D的熵为:   D表示数据集D的样本量,Dj表示数据集Dj的样本量,则信息增益为:
  要想得出信息增益率,必须先求出使用“分裂信息”值,分裂信息定义为:
  在C4.5算法中,信息增益率最大的属性为划分标准。最后,信息增益率为:
  (三)随机森林
  随机森林是一种集合学习的方法,随机森林通过随机建立一个森林,这森林里包括很多个决策树,随机森林里的每棵决策树都是相互独立的。在建立隨机森立后,当输入一个样本,则随机森林里的每棵决策树树都会对样本进行决策,然后在通过这些决策树进行投票,从而得出最终的预测值。随机森林有效地提高了预测精度,并且能够给出每个特征变量的重要程度。
  三、实证分析
  第一,数据来源。人人贷是我国较早进行网络借贷的平台,也是发展的比较好的平台。本文通过python爬虫的方法从人人贷平台上选取了2015—2018年上半年的个人借款数据,由于存在到大量与个人信用无关的信息,如借款人昵称、贷款编号等,若加入模型,可能会造成不必要的干扰。此外,有些变量是字符型的,也改成数值型。最终,借款人的信息包括个人信息(借款人年龄、学历、性别、工作区域、是否有房、是否有车、是否有房贷、是否有车贷,婚姻状况、工资、公司规模以及工龄);借款人信用情况(信用评级);借款信息(借款利率、借款金额、借款用途、借款周期)。在删除了缺失值后,得到了7 599条完整记录的数据。在所选取的数据中,6 482条是没有违约的,1 117条是违约的。
  第二,变量选取及处理。网贷违约风险预测中并没有标准的变量选取方法,本文通过参考国内外众多文献,最终确定了16个解释变量,可分为三大类,分别是借款人基本情况、借款产品信息以及借款人信用情况。1个预测变量,即是否违约。我们对各个变量进行了处理,具体(如表1所示)。
  第三,实证结果。本文分别使用了支持向量机(SVM)、决策树(DT)和随机森林(RF)进行预测,先在不同训练集下的建立模型,然后在测试集上进行预测,结果(如表2和表3所示)。
  从以上数据可以得出,在进行违约率的预测时,三个数据挖掘模型的预测效果都比较好,其中最好的是随机森林模型。同时,我们在训练集为90%的情况下,根据随机森林模型得出了各个变量的重要性程度。
  各个解释变量的重要性依次为信用等级、借款数额、借款周期、借款利率、公司规模、工作时间、年龄、工资、学历、工作区域、婚姻状况、是否有车、是否有房、是否有房贷、性别、是否车贷。
  四、结论与建议
  第一,本文通过使用数据挖掘模型(支持向量机、决策树、随机森林)对网贷数据进行建模预测得出以下结论。首先,这三种模型对借款人的违约预测效果都很好,总体预测正确率都达到了87%以上,而对违约样本的预测正确率也都达到了82%以上,尤其以随机森林的预测效果最好,这可以为投资人和网贷平台在选择借款人时提供一些参考。其次,影响借款人违约的最重要的十个特征是借款人信用等级、借款数额、借款周期、借款利率、公司规模、工作时间、年龄、工资、学历、工作区域。
  第二,基于以上结论,并结合中国P2P网贷行业发展现状,提出以下两点建议:首先,信用等级对借款人是否违约有重要的参考意义,所以网贷平台应该建立起一套标准的信用评级体系,能对借款人的信用等级进行有效的评分。其次,网贷平台间应该建立信息共享平台,使得平台间的征信信息能够得到有效共享,以降低违约风险。
  参考文献:
  [1]  刘丽丽.我国P2P网络借贷发展存在的风险及其监管对策[J].征信,2013,(11):29-32.
  [2]  李渊琦,陈芳.我国P2P网贷风险的风险分析及监管对策[J].上海金融,2015,(7):78-81.
  [3]  缪莲英,陈金龙.P2P网络借贷中社会资本对借款者违约风险的影响——以Prosper为例[J].金融论坛,2014,(3):9-15.
  [4]  刘鹏翔.P2P网贷平台借款人信用风险的影响因素分析——以拍拍贷平台为例[J].征信,2017,(3):71-76.
  [5]  李鑫.借款人声誉与风险识别——来自P2P网络借贷的证据[J].金融发展研究,2019,(6):3-11.
  [6]  程瑶.学历水平在借贷市场上的作用——来自P2P市场的经验证据[J].上海金融,2018,(2):47-55.
  [7]  Hill R.C,W.E.Griffiths,G.C.Lim:“Principles of econometrics”,Danvers,MA:John Wiley & Sons,Inc,2011.
  [8]  Goyal A.,R.Kau:“Accuracy pre-diction for loan risk using machine learning models”,International Journal of Computer Science Trendsand Technology,2016,(1):52-57.
  Analysis on the Risk of Default of Network Loan Based on Data Mining
  ZHONG Jiao-cong,FANG Hua
  (University of Shanghai for Science and Technology,Shanghai 200093,China)
  Abstract:Taking P2P network lending as an example,this paper selected 7559 records from personal loans from 2015 to 2018,analyzed borrowers default risk through data mining model,and identified the main factors affecting borrowers’ default.These data mining models mainly include decision tree,support vector machine and random forest.The main conclusions include:firstly,using data mining model to predict default risk is very good,the best of which is random forest;secondly,the top five characteristics of importance are credit rating,loan amount,loan cycle,loan interest rate and working time of borrowers.
  Key words:P2P network lending;data mining;default risk
  收稿日期:2019-10-08
  作者简介:钟教聪(1995-),男,海南昌江人,硕士研究生,从事互联网金融研究。
其他文献
全球胃病患者数量逐年升高,预计到2025年将达7亿,约占全球人口的十一分之一。我国13亿人口中,胃肠病患者约占十三分之一,此数据高居世界前列。以上调查数据表明,胃肠道疾病已经成为威胁人类健康主要疾病之一。目前胃肠病治疗主要依靠药物,但其易产生耐药性,且副作用大。近年来,越来越多的研究表明食药同源食材及其相关健康食品对改善胃肠道功能有着不可忽视的作用。猴姑米稀、猴姑饼干是基于食药同源食材(人参、茯苓、山药、猴头菇等)开发的新型健康食品。因此,本课题拟以猴姑米稀浸膏、猴姑米稀、猴姑沙和猴姑饼干四种受试物为研究
链格孢霉毒素是链格孢霉菌产生的有毒代谢产物,包括交链孢菌酮酸(TeA)、交链孢酚(AOH)、交链孢酚单甲醚(AME)、交链孢烯(ALT)和腾毒素(TEN)等。这类毒素广泛存在于土壤、空气、水等环境介质以及谷物、油籽、果蔬等食品介质中。食品中链格孢霉毒素的污染是当前备受关注的公共卫生问题之一,流行病学和毒理学研究表明链格孢霉毒素可导致人和动物急性食物中毒,并具有致过敏、致畸、致突变和致癌等风险,欧洲食品安全局(EFSA)制定了AOH、AME、TeA和TEN的毒理学关注阈值(TTC),分别是2.5、2.5、1
摘 要:为进一步适应输配电价改革及其监管形式,2019年以来,安徽省电力有限公司围绕“源头治理、标准统一、过程规范、操作简便”的设计理念,满足“为决策提供支撑服务、从源头管控数据质量”要求,积极开展工程自动竣工决算资本性项目全覆盖相关系统功能建设,于2019年12月底成功建立了基于ERP全过程管控的工程自动竣工决算平台,使得企业初步实现了工程竣工决算的自动化、标准化、规范化。  关键词:自动竣工
期刊
摘 要:养老机构的满意度测评,是影响老年人群体选择养老机构的重要因素,也是促进养老机构的服务能力不断提高的重要指标。以上海市493家养老机构的实地调研数据为指标,以养老机构的满意度为因变量,从硬件设施、环境感受、人员配备、内部管理、服务水平五个维度构建多元线性回归方程进行规范化分析,探讨养老机构满意度的影响因素。研究结果显示,影响养老机构满意度评分的因素依次是服务水平、硬件设施、人员配备、环境感受
期刊
摘 要:城镇化是一个历史范畴,同时它也是一个发展中的概念。焦作市新型城镇化建设的实践证明,新型城镇化是一项复杂的系统工程,必须抓住规划改革机遇,优化城镇形态布局;以做实深度融合为抓手,打造发展新增长极;增强产业支撑能力,厚植城镇发展优势;完善城镇功能,构建现代城镇体系;着力提升治理水平,注重涵养文明素质;改革创新,破解新型城镇化建设的瓶颈制约。  关键词:沿黄地区;城镇化;发展实践;焦作市  河南
期刊
摘 要:四川是北方丝绸之路和南方丝绸之路的交汇点,在“一带一路”建设中占有重要地位;中亚地区是陆上丝绸之路的核心区域。如何发展与中亚地区的外贸关系,对于四川构建新的对外开放格局意义重大。以四川装备制造业为例,回顾四川与中亚经贸发展的历史,分析双方经贸合作的前景和存在的问题,并进一步探讨四川与中亚地区装备制造业合作的路径。  关键词:“一带一路”;四川;中亚;装备制造业;产业合作  自2001年加入
期刊
摘 要:在新冠疫情的影响下,我国经济受到严重冲击,企业遭遇了史无前例的重大危机。这个时期尤其考验企业的危机管理能力,而企业文化在危机管理过程中,具有使企业明确发展目标和方向、缓和企业内部矛盾的作用。格力电器股份有限公司作为我国家电行业的龙头企业,在疫情期间实施的多项举措,如向员工承诺不裁员降薪、坚决开除不遵守防疫规定的员工、继续吸纳人才、进军医疗行业等,引发了业内广泛的关注和讨论。因此,以格力电器
期刊
摘 要:手工实训业务利用ERP软件进行核算,需要适应ERP软件的核算设计思想进行相应的信息化设计,才能顺利进行ERP软件核算。从部门档案、会计科目设置、领料单核算、报表公式设置四个方面研究如何对手工会计实训业务进行信息化设计,以适应ERP软件的核算需要。部门档案应设置业务中各自制产品的虚拟部门以便于核算产品的生产成本,往来会计科目应设置辅助核算项目以简化会计科目体系,生产产品领用材料的领料单部门应
期刊
摘 要:高管薪酬业绩敏感性是薪酬和业绩的结合,是企业管理的重要研究课题。探究股权集中度对研发投入与高管薪酬业绩敏感性之间关系的作用也因此具有了必要性。以软件与信息技术行业的上市公司为样本,选取2015—2019年的相关数据,采用描述性统计、多重共线性检验、回归分析等多种统计方法,实证分析股权集中度、研发投入与高管薪酬业绩敏感性之间的关系。研究结果显示,研发投入与高管薪酬业绩敏感性正相关,股权集中度
期刊
摘 要:近年来,文化产业不断拓展其覆盖的广度和深度,作为其中核心资源,无形资产不仅是文化企业吸引市场的必要储备,更为国家经济发展做出重要贡献。然而,现阶段我国文化企业核算无形资产时存在诸多问题。因此,从无形资产核算角度分析近期跌下“神坛”的乐视网,从确认、初始计量、后续计量、披露四个方面研究其中的问题,并对相关主体在无形资产核算中涉及的具体方法、范围和披露等方面提出建议。  关键词:文化产业;文化
期刊