基于特征工程应用的支持向量机对非寿险公司破产预测

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:abc000123444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
保险公司提供的风险保障,在整个国民经济发展中起着重要的作用。随着经济、社会的不断发展,各经济主体对风险管理的需求急剧增加,而保险作为具有社会“稳定器”和经济“助推器”作用的主体,更需要管理风险,其破产必定对整个社会造成严重的影响。这不仅对保险相关的风险管理和风险控制能力提出了挑战,也会影响投资者的投资意愿和相关决策,进而影响整个保险市场的健康运行,同时保险失去对整个经济社会的保障功能,可能引起社会恐慌,经济形势动荡。因此要对保险公司财务风险进行有效预测,以便保险公司及早发现风险采取防范措施,从而有效避免保险市场风险爆发对整个经济、社会、政治带来不利影响。自从单一变量财务预警模型建立至今,不断有学者提出新的破产预测模型,从ZETA模型到多元判别分析法到Logistic模型再到现在最热门的机器学习算法。支持向量机(SVM)作为机器学习算法的一种,由于其独特的泛化和推广能力,已成为研究热点之一,并被应用到不同领域。与传统机器学习方法相比,该方法主要应用于解决小样本、非线性、高维度的机器学习问题,常用于数据分类,具有结构简单、适应性好、全局最优、训练速度快和泛化能力强等诸多优势。随着数学及其他领域的突破,传统的支持向量机理论和技术得以快速发展,出现了众多的改进支持向量机理论,比如最小二乘支持向量机、模糊支持向量机、二次曲面支持向量机、NN-SVM、BS-SVM等,这些方法都对原始的SVM有一定的优化效果。总结之前学者对SVM改进的方法,多是从噪声点的处理、改变约束函数、使用距离进行样本分类、算法改进等方面入手,还未有学者系统地研究特征工程对SVM的作用。本文以美国非寿险公司为样本,运用基于特征工程应用的支持向量机到保险公司破产预测中,并且通过关注不同研究目标,设置相应阈值,以此获得不同的分类结果。实证结果显示本文将特征工程应用到SVM模型后,预测能力十分优秀,模型性能有较大提升,分类准确率大大提高,Ⅰ类错误大大降低。同时比较特征工程三个部分对模型分类结果的提升效果,发现效果不一,特征提取的提升效果相较最好,但仍应综合使用更有利于模型性能提升。最后对模型进行评估,进一步证实了特征工程对SVM性能有很大提升。并且发现设置不同阈值所得到的分类准确率也将有所不同,研究者可以根据希望达到的目标进行相应的设定。本文正文大体可以概括为五个部分:第一部分首先对本文选题的背景和意义进行概括,说明本文研究的思路、研究内容、研究方法以及所期望得到的结果,介绍机器学习引出本文所使用的模型。按照预测模型的发展、支持向量机的改进与发展与特征工程的应用对国内外已有的研究成果进行阐述,简要评述当前研究的成果。第二部分界定破产以及对SVM原理进行了较为详细的介绍,对支持向量机的数学模型进行详细推导,叙述其数学原理。同时也介绍了之前学者对其优化所形成的模型,对这些模型进行简要分析与总结,总结之前学者对模型优化主要体现在约束条件的处理以及算法的优化。该部分还介绍特征工程在其他领域的一些应用然后将特征工程分成特征构建、特征提取、特征选择三部分介绍。第三部分是本文的实证部分,样本数据为BVD中ISIS数据库中的美国非寿险公司。选取了所有的非寿险公司在1995年—2015年时间段的数据。然后对样本的所使用的特征工程处理做进一步说明。最后使用支持向量机对数据拟合得出训练模型,并用测试集进行检测分析。通过与对照样本组进行对比,分析应用特征工程对SVM分类结果的提升作用,并且对三个部分分别进行实验,分析每个部分的对预测精度的提升效果。得到基于特征工程应用的SVM模型准确率为89.2%,Ⅰ类错误为0.096,Ⅱ类错误为0.233。特征工程三部分中特征提取表现相较最好。第四部分是介绍评估模型预测能力的三个常见的指标——混淆矩阵、ROC曲线、AUC指标,进一步通过实证手段证明通过基于特征工程的模型的预测能力。由于本文的数据是非均衡分类,单单用分类精度并不能完全作为衡量模型分类性能的指标,因此本文还采用G-Mean、F-Measure指标。得出本文所使用的基于特征工程的SVM在预测方面的表现很好,三个部分对模型分类结果有不同程度的提升。并且本文进行阈值选择,在之前介绍的混淆矩阵、ROC曲线的基础上,引入阈值选择,简要介绍其原理,分别分析不同阈值选择所代表的含义。第五部分是对整篇论文研究成果进行总结,启示以后的破产预测模型应当注重特征工程对数据样本的作用,同时目标不同应当选择不同的阈值。然后阐述对中国保险公司的借鉴意义,并展望之后研究可以改进的方向。本文的创新点有:(1)从特征工程入手进行样本处理,包括特征构建、特征提取、特征选择,通过三个步骤获取更好的数据特征。结果证实特征工程对于模型分类性能有很大的提升作用,并且三个部分都能对模型分类性能进行提升,其中特征提取对模型准确性的提升效果最好。(2)对测试集分类预测结果进行阈值分析,发现关注不同目标可以设定不同的阈值,进行阈值设定将影响整个模型的分类结果以及准确率,因此研究者可以根据研究的重点目标来进行阈值的设定。
其他文献
汽车发电机是汽车电气系统的主要电源,它在正常运行工况下,给汽车上各个用电系统和模块提供电能,并根据车上蓄电池的电能损耗状态给电池充电。传统的汽车发电机采用电励磁电
<正>自从以ofo、摩拜单车为代表的共享单车风靡全国,作为一种新经济业态,共享经济开始融入大众的日常生活,现在的共享经济已经从最初的单车、房屋深入到充电宝、雨伞、篮球等
产业结构调整与转型发展、城市化进程急速发展,虽然为城市经济、社会和文化发展提供了条件,但也带来环境问题,比如遗留了大量工业废弃地、闲置地和受污染土地等。这些城市棕
期刊
本文首先论述了清洗舰载飞机发动机的必要性.对诸如清洗方法、清洗液和清洗系统主要设计参数等清洗关键技术进行了分析.在清洗时机、清洗方法和清洗程序等方面,讨论了舰载飞
金属荧光纳米簇由于其独特的光学性质、生物相容性、催化性能等优点,被广泛应用于环境检测、生物检测和细胞成像等领域。金属纳米簇的荧光性质与纳米簇的合成方法和模板分子
近些年来,人们在转基因植物方面进行了大量的研究。与微生物发酵、动物细胞和转基因动物等生产系统相比,转基因植物不需要昂贵的设备和严格的培养条件,具有光合自养、成本较低,植
对"对分课堂"教学模式及其在创新创业课程教学中的运用进行了研究。该结果有助于推进"对分课堂"在大学生创新创业教育中的实践,从而提升他们的创新创业思维和实践动手能力。
1965年印巴战争期间,中国政府秉承一贯的“言行一致”的作风,如约给予了巴基斯坦全方位的支持和援助,为维护巴基斯坦的主权和领土完整作出了重要贡献,但中巴两国空间上的障碍