论文部分内容阅读
随着互联网在全球的普及及广泛应用,互联网金融也伴随着互联网技术的不断提升而迅速发展,从余额宝到P2P网贷,网络贷款平台如雨后春笋迅猛发展起来。但是由于我国的网络信贷行业发展时间很短,个人信用评级体系不健全等问题,使得P2P网络借贷平台面临比较大的由于逾期带来的信用风险,如何控制由于借款人逾期带来的信用风险是P2P网络借贷平台持续发展的关键。因此利用网络借贷平台海量的交易数据,使用统计分析和数据挖掘方法分析借款用户特征和运用风险评估方法对单笔贷款中借款人是否逾期建立预测模型,了解网贷平台借款群体的特征,发现平台应该重点审查的项目,采取针对性的措施从而提高网贷平台收益,保证网贷平台的优质化运营十分重要。本文主要研究了统计方法和数据挖掘技术在P2P网贷平台的用户特征分析和逾期预测方面的应用。首先,本文使用网络爬虫方法抓取了某P2P网络平台的真实用户数据,随机抽取了1319条满标的借款数据,使用PAM聚类方法对借款用户进行聚类,研究网贷平台借款者的个人特征,为网贷平台识别客户,发现优质客户提供参考。接着,基于用户特征分析提取的借款用户的典型特征,并使用工程学中信息增益率的定量方法进行特征选择。其次,使用信用评估方面应用广泛的统计方法Logistic回归和数据挖掘方法神经网络模型、支持向量机模型分别建立单笔贷款中借款者是否逾期的预测模型,分析模型的准确率、稳定性和可解释性。发现神经网络模型具有很好的预测精度,但是模型稳定性和可解释性较差;而Logistic回归模型虽然具有较好的稳定性但是其精度较数据挖掘方法差,因此为了得到精度较高并且稳定性较好的逾期预测模型,建立神经网络和Logistic回归模型的串行逾期预测模型;最后对我国网络借贷行业的用户特征进行总结,发现优质客户和潜在的逾期客户,并对逾期问题提出合理建议。