论文部分内容阅读
信息技术的发展使得数据式审计模式应运而生,审计的核心方法转变为数据分析方法。但在如今的大数据环境下,传统的计算机辅助审计技术已经难以满足当前环境下的审计数据分析需求,需要更强大的数据分析技术来应对这一挑战。数据挖掘可以从海量数据中发现有价值的信息并把这些数据转化成有组织的知识,近年来,研究如何利用数据挖掘技术进行审计一直是国内外学者关注的一个热点,经过几年的探索,研究范围不断扩大研究程度不断加深,但依旧处在发展中,还存在很多空白领域。本文研究数据挖掘技术在保险公司风险审计中的应用,并针对农业保险这一细分业务。农业保险是针对农业的风险分散机制,但是由于我国从2007年开始才逐步建立起农业保险制度,起步较晚,因此制度、监督体系尚不完善,农保市场存在较为严重的信息不对称问题,尤其是由此导致的投保农户的逆向选择和道德风险,使得保险公司经营成本高,经营风险大。因此,保险公司亟需加强对投保农户的风险审计,但在信息化时代背景下,每天都会产生巨大的农业保险业务数据,传统的审计方法存在诸多局限性,无法实施有效的客户风险审计。此时,我们需要借助计算机技术来辅助审计,充分发挥如今数据保存完善容易获取的优势,利用数据挖掘发现海量数据背后隐藏的有用知识,帮助保险公司更好的实施客户风险审计,有效应对农业保险客户风险。本文的目标是为保险公司提出应对投保农户逆向选择和道德风险问题的解决方案并弥补使用传统审计方法实施客户风险审计的不足。经过研究我们认为综合使用聚类和分类方法构建客户风险等级划分模型,并依据划分结果厘定差额保险费率可以成为保险公司应对上述问题的有效对策。本文首先介绍了聚类和分类技术,综述了其在审计领域的已有研究。然后聚焦到本文的研究对象农业保险,描述了现阶段农业保险公司面临的一系列问题,提出相应的解决对策,即运用数据挖掘技术辅助客户风险审计。接下来使用R语言软件对X市农业保险的投保农户数据进行挖掘,综合使用无监督学习方法聚类中的k-means算法和监督学习方法分类中的随机森林构建客户风险等级划分模型,分别阐述其算法理论原理,并介绍了数据准备、数据预处理、模型构建、模型运用及评估的实际操作过程。基于聚类模型,我们将投保农户的风险等级确定为五类即高风险、较高风险、中等风险、较低风险和低风险。接着基于分类方法优化此模型,训练出可以直接供审计人员使用并能预测新投保农户风险的模型,通过检验,该模型的准确率达到99.6%。由此可见,本文所构建的农业保险客户风险等级划分模型是切实可行的,可以帮助保险公司提高客户风险审计效率,规避农业保险经营风险。最后,结合整个研究过程,提出将数据挖掘技术应用到客户风险审计中的相关建议。本文研究的理论意义在于比较了聚类、分类这两种数据挖掘方式的运用前提和运用效果,充分挖掘农业保险公司的数据信息对投保客户风险进行了首次定量研究。实践意义在于借助数据挖掘技术为X市农业保险公司构建了客户风险等级划分模型,并清晰地展现了数据建模的全过程,从而为保险公司进行客户风险审计提供了一条可借鉴的思路。