基于C4.5算法的农业险种可持续性挖掘研究

来源 :安徽农业科学 | 被引量 : 0次 | 上传用户:studentOfJXUFE
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要为了能够高效地分类出农业保险承保与理赔业务连续数年变化差异大的险种,为相关从业人员深入研究农业保险的实施与创新提供决策支持与目标定位服务,以北京市政策性农业保险数据为依托,通过预先设定评价指标体系,研究经典决策树C4.5算法筛选目标险种的效果。结果表明,在排除政策影响的情况下,C4.5算法提高了对农业目标险种筛选的效率,可为相关从业人员开展重点险种的改革创新或开发新的服务业务提供参考依据。
  关键词农业保险;C4.5算法;可持续性;北京市
  中图分类号F840.66文献标识码A
  文章编号0517-6611(2020)04-0235-04
  doi:10.3969/j.issn.0517-6611.2020.04.068
  开放科学(资源服务)标识码(OSID):
  Research on Sustainability Mining of Agricultural Insurance Based on C4.5 Algorithms—Taking Beijing’s Policy Agricultural Insurance as an Example
  SONG Zheng-yang(Agricultural Information Institute of the Chinese Academy of Agricultural Sciences, Key Laboratory of Digital Agricultural Early-warning Technology, MOA, Beijing 100081)
  AbstractIn order to effectively classify the different types of insurance in the agricultural insurance underwriting and claims settlement business for several years, to provide decision support and target positioning services for the relevant practitioners in-depth study of the implementation and innovation of agricultural insurance, we studied the effect of classical decision tree C4.5 algorithm in screening target insurance species by setting up an evaluation index system in advance based on Beijing's policy-oriented agricultural insurance data.The results showed that the C4.5 algorithm improved the efficiency of screening agricultural target insurance, and could provide references for relevant practitioners to carry out reform and innovation of key insurance or develop new service business.
  Key wordsAgricultural insurance;C4.5 algorithm;Sustainability;Beijing
  农业保险是对农民生产风险的一种保障,我国农业保险起步较晚,但发展较快,全国各省均针对自身的地域特点开展了不同形式的农业保险业务,开发的险种各有不同,仅北京地区开展过的险种就多达59种(含已停售险种),每个新险种的产生都需要保险公司或科研機构投入大量智力资源来开发完成。一个好的农业险种必须能够平衡农户利益与保险公司利益,其效果发挥需要经过市场验证、(结合政策)调整、再验证反复进行。保险公司为了提高自己的服务质量,同时符合政府对农业保险实施精细化管理与市场的需求,需要不断地探索险种的改良与开发。
  国内外学者对农业保险新技术或模型[1-3]、农业保险政策或发展模式[4-6]以及保险实施效果或评价进行了研究[7-8] ,但鲜有对历史险种的绩效评价方面的研究。
  鉴于此,笔者通过农业保险承保与理赔环节重要节点数据连续若干年的变化趋势建立一种农业险种的绩效评价方法,采用C4.5决策树算法快速分类农业险种承保与理赔实施效果差异,判断哪些险种需要创新改革以适应新的市场与政策环境或深度挖掘出新的险种服务,旨在为相关从业人员开展重点险种的改革创新或开发新的服务业务提供参考依据。
  1农业险种绩效评价
  政策性农业保险是以保险公司为依托,政府通过保费补贴扶持,对种植业、养殖业及涉农保险标的物因遭受自然灾害和意外事故造成的经济损失提供的保险。在市场相对成熟的情况下,从险种连续几年农业保险的实施效果来做判断,从而反推其他因素影响,得出农业险种的评价结果。
  1.1险种实施结果指标选择以种植业与养殖业为例,每个险种的实施结果均反映在如下几个方面:①承保环节指标。它包括投保数量,投保户次,签单保费。实例中指标样本数据主要反映的是农业险种的种养规模变化、参与农户数量变化与总保费的变化。②理赔环节指标。它包括赔付户次,赔付数量,赔付金额,赔付率。实例中指标样本数据主要反映的是受灾后保险赔付金额变化、受益户次变化、灾损数量变化以及赔付率波动变化。依据上述基础指标,设定农业险种评价指标(表1)。   由表1可知,设定承保环节指标中有不小于2项是持续增加的,则承保指标为“高”,反之为“底”;同样,理赔环节中有不小于3项是持续增加(或非<10%)的,则理赔环节指标为“高”,反之为“低”。当承保指标与理赔指标评价结果不一致时(即一个为“高”另一个为“低”),险种评价为需要重点研究险种。
  1.2样本数据集选择
  依托北京市农村金融与风险管理信息平台,可以获得北京地区相关完整、准确的政策性农业保险数据。取2016、2017、2018年3年保单与理赔数据为试验训练样本,该数据集包含了北京地区13个区县和4家集团公司共53个险种的数据,其中承保2.4万条数据、承保明细25.7万条数据、理赔11.9万条数据和理赔明细27.6万条数据。通过对数据集的归类计算,依据表1指标描述引出指标结果集,表2列出了部分险种指标样本数据集。
  2决策树算法
  2.1C4.5算法
  决策树算法作为一种分类算法,目标就是将具有p维特征的n个样本分到c个类别中去,它是判断给定样本与某种属性相关联的决策过程的一种表示方法, 该方法广泛应用于数据挖掘和机器学习等领域,用来解决与分类相关的问题,目前比较经典的决策树生成算法有ID3、C4.5和CART树3种。
  决策树C4.5 算法是构造农险险种绩效评价决策树,该算法的输入是一张关系表,由若干不同的属性及若干数据元组(称为训练样本数据集 ) 组成。该算法采用信息熵的方法,比较各个判定对象属性的信息增益率的大小,选择信息增益率最大的属性进行分类,递归生成一个判定树。
  2.2算法描述
  参考表2的数据样本数据集中,取属性集中D={保费趋势,投保数量趋势,投保户次趋势,赔付金额趋势,赔付户次趋势,赔付数量趋势,赔付率波动},评价结果集类别有P={PjUp,PjDown}。
  2.2.1计算类别信息熵。
  信息增益实际上是ID3算法中用来进行属性选择度量的。它选择具有最高信息增益的属性来作为节点N的分裂属性。该属性使结果划分中的元组分类所需信息量最小。对D中的元组分类所需的期望信息为下式:
  Info(D)=-mi=1pilog2(p2)(1)
  式中,m指结果集中元素不同类别个数(实例中m为2),pi为第i个结果集类别元素在样本数据集中的个数与样本数据集总行数的比值,例如表中“评价结果”共计y个,其中PjUp有x个,则pi=x/y,Info(D)又称为熵。
  2.2.2计算每个属性的信息熵。
  现在假定按照属性A划分D中的元组,且属性A将D划分成v个不同的类。在该划分之后,为了得到准确的分类还需要的信息由下面的式子度量:
  InfoA(D)=yj=1|Dj||D|×Info(Dj)(2)
  式中A為D的属性分类,比如“保费趋势”,y为“保费趋势”值中不同分类(BaoFeiUp,BaoFeiDown,BaoFeiOther)个数(这里为3),Dj为每个不同分类元素在样本数据集中的个数(例BaoFeiUp的总个数),D为样本集总行数 ,Info(Dj)为样本数据集中单独提取出某一个分类组成的表的熵(例如,只取样本数据集—表2中含BaoFeiUp的数据行,组成的新表求熵)。
  2.2.3计算信息增益。
  信息增益定义为原来的信息需求(即仅基于类比例)与新需求(即对A划分之后得到的)之间的差,即:
  Gain(A)=Info(D)-InfoA(D)(3)
  2.2.4计算属性分裂信息度量。
  用分裂信息度量来考虑某种属性进行分裂时分支的数量信息和尺寸信息,把这些信息称为属性的“内在信息”。信息增益率等于信息增益/内在信息,会导致属性的重要性随着内在信息的增大而减小(也就是说,如果这个属性本身不确定性就很大,那我就越不倾向于选取它),这样算是对单纯用信息增益有所补偿。
  HA(D)=-yj=1|Dj||D|×log2(|Dj||D|)(4)
  2.2.5计算信息增益率。信息增益率定义:
  IGF(A)=Gain(A)/H(A)(5)
  选择具有最大增益率的属性作为分裂属性[3,9-10]。
  3实例分析
  总结上节所述算法流程如下:
  While(当前节点非叶子结点)
  (1)计算当前节点的类别信息熵Info(D)(以类别取值计算);
  (2)计算当前节点各个属性的信息熵Info(Ai)(以属性取值下的类别取值计算);
  (3)计算各个属性的信息增益Gain(Ai)=Info(D)-Info(Ai);
  (4)计算各个属性的分类信息度量H(Ai)(以属性取值计算);
  (5)计算各个属性的信息增益率IGR(Ai)=Gain(Ai)/H(Ai)。
  End While
  依据表2数据集,通过以上算法流程执行第1次循环得到结果见表3。
  算法取信息增益率IGR(A)值最大(0.026 93)的指标项“投保数量趋势”作为初始分裂属性。如此循环执行C4.5算法,不断分裂,直至所有节点均为叶子节点(图1)。
  通过对表2数据集(共计8个分类,424个属性值)执行决策树算法,可以最少分裂2次、最多分裂4次找到叶子结点(结点属性值对应所有结果值均相同),时间可以忽略,算法可以很快依据评价指标分类出需要重点研究的农险险种,符合预期目标。
  4结论
  决策树方法只需要预先确定样本数据集,然后依赖数据学习得到决策树,并用定量规则方式表达所获取的知识,应用于农业保险险种可持续发展性评价,即只需要选取合适的险种指标基础数据(相应指标的保险业务数据)并依据评价规则计算得到分类结果。依据农业保险业务发展情况对保费趋势、投保数量趋势、投保户次趋势、赔付金额趋势、赔付户次趋势、赔付数量趋势以及赔付率波动属性设定评价方法,通过采用决策树C4.5算法进行险种业务发展情况的快速结果分类处理,该方法不仅可以有效避免主观判断和经验知识的不足,且有利于随着保险业务的推进快速更新评价数据,为有效分类出重点农业险种研究对象、开展可持续性研究提供了一种思路和方法。但其应用有一定局限性,即农业保险受“政策”影响较大,并非完全市场运营机制,这在政策性农业保险发展初始期难以避免。随着我国社会经济的不断发展,农业保险发展日渐成熟,“政策”对农业保险市场的影响将逐渐淡化。加之保险业务发展评价方法的不断完善,决策树算法的逐步改进将对数据的分析结果更趋于高效性与合理性。
  参考文献
  [1]李飞,齐林.基于决策树C4.5算法的大数据保险业模型研究[J].财政与金融, 2017(2):71-73.
  [2] 司巧梅.基于决策树的农业气象灾害等级预测模型[J].安徽农业科学,2010,38(9):4925-4927.
  [3] 纪思琪,吴芳,李乃祥.基于决策树的蔬菜病害静态预警模型[J].天津农学院学报,2017,24(2):77-80.
  [4] 曹波.新疆农业保险运行效率评价:基于五个试点地区的实证分析[D].乌鲁木齐:新疆农业大学,2016.
  [5] 庹国柱.试论农业保险创新及其深化[J].农村金融研究,2018(6):9-13.
  [6] 高岑.国外典型农业再保险发展模式分析及其启示[J].农村经济与科技, 2019,30(2):212-214.
  [7] 赵红.我国农业保险标准化绩效评价研究[D].济南:山东大学,2015.
  [8] 林乐芬,李远孝.高效种植农业保险绩效评价及影响因素分析:以江苏省为例[J].烟台大学学报(哲学社会科学版), 2018,31(5):98-109.
  [9] 马伟杰.基于C4.5决策树算法的网络学习行为研究[J].科学导刊,2016(23):150-151.
  [10] 任周桥,刘耀林,焦利民.基于决策树的土地适宜性评价[J].国土资源科技管理,2007,24(3):21-25.
其他文献
摘要 以丹陽市万善公园改造设计为例,通过实地调研和问卷调查,采用定量统计和定性分析的方法,旨在探讨城市公园植物配置应用效果和生态稳定性。结合“城市双修”建设需要,利用城市生态学原理和中国植物文化,增加乡土植物、地被植物和水生植物的种类,扩大边缘植物景观尺度,优化植物群落和生态结构,提出植物配置可行性优化建议,促进人与自然、城市与自然的和谐共生。  关键词 “城市双修”;城市公园;植物配置;生态保护
期刊
摘要 通过对渝东北地区10个区县210余座乡镇生活污水处理厂的实地调查研究,发现乡镇生活污水处理工艺具有多样性,主要为生物转盘、人工快渗、膜生物反应器以及梯田式多级人工湿地等。污水处理厂处理规模普遍较小,73%以上的设计处理规模在1 000 m3/d及以下,且部分污水处理厂设计处理规模远大于实际处理规模;其污染物排放标准大多援引城镇污水处理厂污染物排放标准;同时,污水处理厂运行管理方面也存在着不同
期刊
摘要 为进一步研究益生菌对仔猪生长性能、腹泻率和血清生化指标、免疫指标的影响,选取1 000头健康状况良好、平均始重(8.31±0.33)kg、(35±2)日龄的三元杂交断奶仔猪,随机分成对照组和试验组2组,对照组不添加任何益生菌和抗生素,试验组每1 000 kg饮水中添加1 L的益生菌。结果表明:饮水中添加复合益生菌能够较好地改善仔猪的生长性能,提高仔猪的日增重,降低料重比(P<0.05),降低
期刊
摘要以江苏农林职业技术学院为例,总结了基于SPOC、翻转课堂、仿真实训室等的混合式教学,结合混合教学实践中出现的以由上向下推行为主,由下而上改革动力不足;考评体系突出过程考核,但考核引导学习不足;学习资源极大丰富,有机融合运用能力不足等问题,提出应基于教学主体利益,激发由下而上改革的动力;基于引导学生自觉自主学习,完善考评体系及创新考评手段和方法;加强资源选择并有机融合教学过程,实现线上线下资源的
期刊
摘要 当前农户耕地利用的自给性和季节性闲置正动摇我国粮食安全的基础。基于农户耕地功能演变的视角,以湘、赣、琼3省的6个自然村农户为调查对象,采用田野调查和历史追溯法分析了1998—2018年农户层面的耕地利用功能演变。结果表明:①农户耕地总体功能呈分化特征;②农户耕地利用的经济功能、生产功能与养老功能凸显,保障功能与粮食安全功能逐渐减弱;③不同农户耕地利用功能存在差异,且差异程度不一,纯农户样本的
期刊
摘要 地理国情作为基本国情的重要组成部分,近年来受到越来越多的关注和重视。笔者基于全方面获取的多尺度和多时相遥感影像、土地利用数据、社会经济统计信息以及历史数据等地理国情普查成果,对广东省建设发展过程中的土地利用基础状况、生态资产、生态系统服务价值以及生态风险情况进行动态监测与分析。结果表明:①2005—2016年间,广东省建设用地占比逐年增加的态势明显,生态用地面积不断降低,林地占比逐年减少;②
期刊
摘要 兽医外科手术学是高等农业院校动物医学专业的必修课程之一,是一门理论性和实践性较强的综合性学科。目前传统课堂教学方法已经无法满足现代高等教育信息化教学的需求。将移动云教学平台应用于兽医外科手术学的教学中,使其引导式、互动式的学习情境和信息扩张性优势与传统兽医外科手术学教学有机地结合起来,从而促进兽医外科手术学教学质量的提高。介绍了云班课在兽医外科手术学课堂的设计、实施及教学效果评价,以期为动物
期刊
摘要 [目的]建立植物油中香兰素、甲基香兰素、乙基香兰素的高效液相色谱-串联质谱测定方法。[方法]以QuEChERS为基础,样品经乙腈-水(80∶20,V/V)提取,采用EMR-Lipid净化,以ACQUITY UPLC HSS T3色谱柱(2.1 mm×100 mm,1.8 μm)分离后,在电喷雾离子源的负离子模式下,多反应监测模式采集数据,外标法分量。[结果]在10~1 000 μg/L香兰素
期刊
摘要 在综合借鉴国内外对农业产业化发展历程、经营主体以及发展模式研究的基础上,指出现代农业产业化联合体是以龙头企业为核心,实现区域化布局、专业化生产、企业化管理,将产加销有机的结合起来,形成规模化、一体化经营的形式,以此来促进农业供给侧结构性改革。通过对新疆巴州焉耆县的农业产业化的深入实地调查研究,以焉耆县嘉盛农拓者公司为例,通过“龙头企业+农民专业合作社+家庭农场”的发展模式,分析了当前新疆辣椒
期刊
摘要通过调查对重庆市16个区县195个自然村农村集体经济发展情况,对集体经济发展中的经营内容和组织模式对农村集体经济发展的影响进行总结、分类,对经营内容和组织模式进行方差分析,对组织模式与经营内容进行交互分析,认为经营内容和组织模式在农村集体经济发展中存在非常密切的相关性,对进一步研究农村集体经济,深化农村集体经济制度改革、激发农村集体经济的发展活力具有重要意义。  关键词农村集体经济;经营内容;
期刊