论文部分内容阅读
摘要:以某保险公司2007-2009年业务数据为研究样本,在SQLSERVER 2005平台上对数据进行挖掘分析,得出针对不同消费群体的保险产品销售组合,为保险公司交叉销售提供指导。
关键词:数据挖掘;保险;交叉销售
中图分类号:TU247.1文献标识码:A文章编号:1006-4117(2011)04-0160-02
在CRISP-DM方法论指导下,构建基于聚类的关联规则数据挖掘模型,对保险业务数据进行挖掘分析。
一、数据准备
结合保险公司个人寿险业务数据库的信息,可以概括为客户信息表、保单信息表及理赔信息。将三张表中和挖掘主题相关的字段信息抽取,整合为一张宽表。
研究样本中,年龄和保费都是连续型数据,将其转化为离散化数据,有利于提高数据挖掘的效率。利用SQLServer2005的IntegrationServer工具加载数据表,建立多维数据立方体。
基于数据挖掘的保险交叉销售模型应用
(一)构建基于聚类的挖掘模型
选取412(金彩明天两全保险)、413(瑞鑫两全保障)等为主细分变量,地区、保费、渠道等为辅细分变量。并保证输入变量与输出变量之间有一定的相关性。建立聚类挖掘模型,得到聚类结构图。
模型将数据分为10个群体,对每个群进行钻取,结合剖面图和數据倾向图,判别其所具备的特征。10个分类的强弱势特征如下表所示:
选择保费10000和100000为临界点,可见类1、类2、类3为低端客户,缴纳保费均在10000元以下,类4-8为中端用户,缴纳保费为10001到100000元之间,类9和类10属于高端客户,缴纳保费均在100000元以上。
针对低中高端群组,结合年龄、性别、受教育程度等特征对群组的业务特征进行描述,低端群组特征分析如下表1-4所示:
低端群组消费特征描述:该群体受教育程度普遍不高,在初中以下,年龄偏大,大多在50—65岁之间,缴纳保费的能力较低,都在10000元以下。由于S42(康宁终身健康保险)缴费较高,所以需求很低,此外S66(少儿保险)需求很少。同样的方法,统计分析中端和高端客户的群体特征。
聚类只能解决已经发生过的客户消费行为,并不能对将来的消费行为和规律进行预测。在聚类的基础上,对所有险种类别进行关联分析,得出最强的关联规则,从而有针对性的对各客户群组进行交叉销售。
(二)构建关联挖掘模型
针对每一群组,构建关联挖掘模型,关联规则的默认算法是Apriori算法。通过运行关联挖掘结构,得出依赖网络图。
对于每一群组来说,最强的险种关联只是两个或三个而已。选择关联最强的两个险种:S43→701,险种出现的概率为88.9%,重要度为1.9,为正关联。说明低端客户类1,在购买S43(康宁定期保险)的同时购买701(全家福意外卡)的几率为88.9%,结合低端客户群组的消费特征,较顺应常理。得出的关联规则是形如A→B,代表如果购买了产品A,则同时也会购买保险产品B。具体情况如表3所示。
根据各个类别最佳的险种关联,像所对应的群组中还没有消费这种保险组合的客户进行推销,已经购买了其中一种保险产品的客户,向其推荐另一款产品;或者在未来向某一类客户推荐产品时,根据其收入和教育程度等客观因素,判断大致所属的群组,推销产品组合,以达到实现交叉销售的目的。
结束语:论文对基于聚类的关联规则交叉销售模型进行实证研究,先从客户角度出发,运用EM聚类算法对准备好的数据进行数据挖掘,得出自然的10个群组分类,然后对每一个群组,从产品业务角度出发,用Apriori算法对险种进行关联分析,得出可以指导交叉销售的规则。在客户聚类的基础上,找出保险产品潜在的关联规律,制定有针对性的交叉销售方案。
作者单位:常熟理工学院管理学院
作者简介:周梅(1978— ),女,汉族,江苏徐州人,中国矿业大学管理学院在读博士生;常熟理工学院管理学院,讲师,研究方向:数据挖掘,金融工程与风险管理。
参考文献:
[1]谢友辉,蒋新华.数据挖掘技术及在保险领域中的应用[J].信息技术,2003:27,8:33-34.
[2]李娜.基于数据挖掘的零售客户细分模型的应用研究[D].硕士学位论文.2008,4.
[3]羡晨静.电信领域交叉销售模型的构建与应用[D].硕士学位论文,2008,2.
表3:不同群组的险种关联表
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文
关键词:数据挖掘;保险;交叉销售
中图分类号:TU247.1文献标识码:A文章编号:1006-4117(2011)04-0160-02
在CRISP-DM方法论指导下,构建基于聚类的关联规则数据挖掘模型,对保险业务数据进行挖掘分析。
一、数据准备
结合保险公司个人寿险业务数据库的信息,可以概括为客户信息表、保单信息表及理赔信息。将三张表中和挖掘主题相关的字段信息抽取,整合为一张宽表。
研究样本中,年龄和保费都是连续型数据,将其转化为离散化数据,有利于提高数据挖掘的效率。利用SQLServer2005的IntegrationServer工具加载数据表,建立多维数据立方体。
基于数据挖掘的保险交叉销售模型应用
(一)构建基于聚类的挖掘模型
选取412(金彩明天两全保险)、413(瑞鑫两全保障)等为主细分变量,地区、保费、渠道等为辅细分变量。并保证输入变量与输出变量之间有一定的相关性。建立聚类挖掘模型,得到聚类结构图。
模型将数据分为10个群体,对每个群进行钻取,结合剖面图和數据倾向图,判别其所具备的特征。10个分类的强弱势特征如下表所示:
选择保费10000和100000为临界点,可见类1、类2、类3为低端客户,缴纳保费均在10000元以下,类4-8为中端用户,缴纳保费为10001到100000元之间,类9和类10属于高端客户,缴纳保费均在100000元以上。
针对低中高端群组,结合年龄、性别、受教育程度等特征对群组的业务特征进行描述,低端群组特征分析如下表1-4所示:
低端群组消费特征描述:该群体受教育程度普遍不高,在初中以下,年龄偏大,大多在50—65岁之间,缴纳保费的能力较低,都在10000元以下。由于S42(康宁终身健康保险)缴费较高,所以需求很低,此外S66(少儿保险)需求很少。同样的方法,统计分析中端和高端客户的群体特征。
聚类只能解决已经发生过的客户消费行为,并不能对将来的消费行为和规律进行预测。在聚类的基础上,对所有险种类别进行关联分析,得出最强的关联规则,从而有针对性的对各客户群组进行交叉销售。
(二)构建关联挖掘模型
针对每一群组,构建关联挖掘模型,关联规则的默认算法是Apriori算法。通过运行关联挖掘结构,得出依赖网络图。
对于每一群组来说,最强的险种关联只是两个或三个而已。选择关联最强的两个险种:S43→701,险种出现的概率为88.9%,重要度为1.9,为正关联。说明低端客户类1,在购买S43(康宁定期保险)的同时购买701(全家福意外卡)的几率为88.9%,结合低端客户群组的消费特征,较顺应常理。得出的关联规则是形如A→B,代表如果购买了产品A,则同时也会购买保险产品B。具体情况如表3所示。
根据各个类别最佳的险种关联,像所对应的群组中还没有消费这种保险组合的客户进行推销,已经购买了其中一种保险产品的客户,向其推荐另一款产品;或者在未来向某一类客户推荐产品时,根据其收入和教育程度等客观因素,判断大致所属的群组,推销产品组合,以达到实现交叉销售的目的。
结束语:论文对基于聚类的关联规则交叉销售模型进行实证研究,先从客户角度出发,运用EM聚类算法对准备好的数据进行数据挖掘,得出自然的10个群组分类,然后对每一个群组,从产品业务角度出发,用Apriori算法对险种进行关联分析,得出可以指导交叉销售的规则。在客户聚类的基础上,找出保险产品潜在的关联规律,制定有针对性的交叉销售方案。
作者单位:常熟理工学院管理学院
作者简介:周梅(1978— ),女,汉族,江苏徐州人,中国矿业大学管理学院在读博士生;常熟理工学院管理学院,讲师,研究方向:数据挖掘,金融工程与风险管理。
参考文献:
[1]谢友辉,蒋新华.数据挖掘技术及在保险领域中的应用[J].信息技术,2003:27,8:33-34.
[2]李娜.基于数据挖掘的零售客户细分模型的应用研究[D].硕士学位论文.2008,4.
[3]羡晨静.电信领域交叉销售模型的构建与应用[D].硕士学位论文,2008,2.
表3:不同群组的险种关联表
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文