论文部分内容阅读
本文研究工作的重点在于对泰康人寿保险公司拥有的大量用户数据进行深度分析,利用机器学习的方法进行市场需求预测,以及业务推荐。在没有引入数据分析解决该问题之前,由于用户信息无法直接判断用户价值的高低,因此传统方式是以对用户进行访问调查的方式人为判断用户的价值,这种方式及其耗费人力、物力,并且效率低下。所以通过用户数据来定位客户价值,并且有针对性的对用户进行保险推荐服务,是保险公司急需解决的问题。而本文研究内容是解决这个问题的重要技术手段。该工程通过对客户的属性信息或行为信息进行自主学习,使泰康人寿保险公司能够快速定位用户需求,占领市场份额。 经过对保险用户数据集的处理、分析和研究,根据保险公司的需求,针对高价值用户的寻找问题和保险产品的推荐服务,本文在此数据集上做了以下三个方面的研究工作: 第一,设计一种适合保险公司需求的分类模型来寻找高价值用户。在对用户数据进行处理后,把数据做归一化处理,可以加快模型的收敛速度,然后调节平衡参数来获得最优的SVM高斯核模型,并通过和其他分类模型的对比实验,来说明所得到的模型是最适合保险数据集的分类模型。通过此模型可以找到高价值用户从而让保险公司有针对性的进行营销服务。 第二,设计使用Kmeans聚类的方式给没有购买记录的用户推荐保险产品。由于有些用户没有过保险购买记录,所以我们没有办法根据他对某个保险产品的偏好来对其进行保险产品的推荐。针对这个问题,本文提出使用Kmeans聚类的方式把所有用户聚集到K个类,然后根据用户所属分类中的保险购买情况来给用户推荐购买热度高的保险产品。经过试验得到了较好的推荐效果。 第三,设计使用协同过滤算法的方式来给有购买记录的用户推荐保险产品,并且把协同过滤算法移植到Spark平台,实现了分布式的协同过滤算法。借助协同过滤算法的思想,应用于保险用户数据集来实现保险产品的推荐服务。由于保险公司的数据集是非常大的,而单机模式下的协同过滤算法计算时间过长,不能满足保险公司对保险推荐的实时需求,所以在此基础上把协同过滤算法移植到Spark平台,实现分布式的方式来减少计算时耗。经过试验表明,在Spark上的协同过滤算法可以在保证推荐精度的情况下可以很大程度上减少计算时耗。 经过对该工程的测试、试用,所设计的模型能够快速定位到高价值用户,并且使用的推荐模型能够获得较好的推荐效果。该工程可以扩展到对各行业历史数据分析以及业务预测。具有较高的应用价值。