基于大数据分析对客户信誉与客户欠费间的关系研究

来源 :现代信息科技 | 被引量 : 0次 | 上传用户:guofeng7303
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:随着电力企业的不断发展,供电公司对用电客户信誉情况及客户欠费风险情况越来越重视。从积累的大量电力营销数据的分析和研究中构建客户信誉等级模型和客户欠费风险模型,进而从中找到二者的关系成为供电公司的研究重点。为此,该文提出了基于大数据分析客户信誉与客户欠费间的关系的研究,对营销系统的日常业务数据进行深入的挖掘分析,重新构建客户信誉等级和客户欠费风险模型,判别存在电费回收高风险的用户,并依据客户类别生成分析仪表盘,多维分析以便降低电费回收风险,同时,找到客户信誉与客户欠费间的关系,以便业务人员针对具体客户采用适当的策略开展工作。
  关键词:大数据分析;客户信誉;客户欠费;OLAP多维分析;电力营销
  中图分类号:TP311.1;F426.61       文献标识码:A 文章编号:2096-4706(2020)02-0126-03
  Abstract:With the continuous development of power companies,power supply companies are paying more and more attention to the credit situation of customers and the risk of customers’arrears. From the analysis and research of the accumulated large amount of electric power marketing data,it becomes the research focus of the power supply company to build the customer credit rating model and the customer default risk model,and then find the relationship between them. For this reason,in this paper a research based on big data analysis of customer reputation and customer arrears is proposed. The daily business data of the marketing system is deeply analyzed and analyzed,and the customer credit rating and customer arrearage risk model are reconstructed to determine the existence of electricity fee recovery. High-risk users,and generate analytical dashboards based on customer categories,multi-dimensional analysis to reduce the risk of electricity bill recovery,and at the same time,find the relationship between customer reputation and customer arrears,so that business personnel can work with specific strategies for specific customers.
  Keywords:big data analysis;customer reputation;customer arrears;OLAP multidimensional analysis;power marketing
  0  引  言
  目前,供電公司营销基层业务人员反映现在的信誉评分不详细,难以有效支撑业务需求,针对这个问题,从后台分析现有用户数据,发现营销系统中93%的信誉等级都是A级(最高信誉等级),客户信誉评分与客户欠费间的关系不明确,需要从大数据对客户信誉进行多维度分析,协助业务部门重新审核信誉的评分制度。而基于大数据分析客户信誉与客户欠费间的关系研究则能有效地解决目前供电公司有关客户信誉等级及客户欠费风险的问题,明确客户信誉等级与客户欠费间的关系,为供电公司提供强有力的决策支撑[1]。
  1  设计原则
  基于大数据平台,通过本次开展基于大数据分析的客户信誉与客户欠费间的关系研究,实现以下具体目标:
  (1)数据集成:通过大数据平台完成模型分析数据源宽表的设计与创建,完成DM层目标库表的设计与创建,并通过数据溯源分析,完成模型数据源宽表和DM层目标表的ETL过程工作流的编写,完成模型宽表数据的ETL抽取和统计,并建立定时任务和ETL日志机制,自动定时调度ETL工作流的执行,输出调度日志,以提高ETL工作流的执行效率;
  (2)模型设计:模型设计过程中严格遵循数据分析建模流程和原则,按照数据分析、数据准备、数据清洗、模型选择、模型测试、结果分析等设计原则,严格进行数据分析和数据清洗,模型流程搭建遵循大数据平台模型工作流设计要求,自动识别匹配数据字段类型,自动配置模型各项参数,可通过日志查看工作流执行情况[2];
  (3)定时调度:利用工作流定时调度任务的配置,实现7×24小时模型工作流的自动作业,可实现快速、按需自动进行模型宽表数据的ETL;
  (4)函数设计:指标量相关函数的编写和设计完全基于大数据平台的SQL标准,优化SQL的性能,优化函数的输入输出参数,达到快速响应执行展现结果的目的。   2  效益预期
  通过本次基于大数据分析的客户信誉与客户欠费间的关系研究,运用大数据分析方式对客户信誉进行多维度分析,协助业务部门重新审核信誉的评分制度,按维度可视化展示客户信用数据,按时间、空间、类型分析客户信用等级分布,精准掌握客户资源,从根本上有效降低欠费回收风险,可以有效地节约人力成本,改变原有的通过人工核查的方式评估客户信誉、识别客户欠费的方式,降低业务人员的人力负担和管理成本,提高信誉等级和欠费风险判定的准确性、科学性[3]。
  同时,通过基于大数据分析的客户信誉与客户欠费间的关系研究,大力推广应用后的客户信誉等级和欠费回收风险成果配置导出,既可有效地识别客户欠费风险,判别电费回收高风险用户,进而提高电费回收率,为供电公司挽回经济效益,又规范了管理工作,提高了决策效率,为供电公司的运营发展提速增效。全新的信誉等级和欠费风险管理模式也进一步完善了客户的档案、基于客户信誉的欠费风险,根据不同情况,因地制宜地采取相关措施,提高业务处理效率,提高用户满意度,有利于树立供电企业良好的社会形象。
  3  算法模型运用
  3.1  Logistic回归算法
  逻辑回归是从统计学中借鉴来的,尽管名字里有回归两个字,但它不是一个需要预测连续结果的回归算法。与之相反,Logistic回归是二分类任务的首选方法。它输出一个0到1之间的离散二值结果。简单来说,它的结果不是1就是0。Logistic回归算法本质上是线性回归,是在从特征到结果进行映射的过程中加入一层函数进行映射,具体来讲,就是先对特征进行线性求和,然后通过函数g(z)作为假设函数来对其进行预测[2]。g(z)主要是将连续值全部映射到0和1上。而在应用中,考虑到其存在p个独立的向量,表示为x′=(x1,x2,…xp),设其条件概率表示为P(Y=1|x)=p,该概率是相对于某个事件所发生的概率[2]。由此,逻辑回归模型可以表示为[4]:
  3.2  评分卡模型
  信用评分卡模型在国外是一种成熟的预测方法[3],尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用Logistic回归模型进行一种二分类变量的广义线性模型[5]。
  4  客户信誉及欠费风险模型构建
  根据数据挖掘的流程,运用Logistic回归算法和评分卡模型算法,以历史欠费客户作为坏客户研究样本,基于大数据平台Edata数据挖掘工具,从而将客户信誉等级与客户欠费风险模型设计为如图1所示的流程。
  5  全体客户评分
  运用评分卡模型对全体客户进行评分,以客户欠费风险模型为例,经过分析高风险客户群主要集中在得分的前5%。如表1所示,将前5%客户进一步细分,可以确定前1%的纯度非常高,坏客户占比较高。因此建议分群方法为:前1%:高风险群;2~5%:次高风险群;后95%:低风险群[6]。
  同样的过程,客户信誉等级模型分析中,高信誉客户群体主要集中在得分的前5%,较高信誉的客户群体主要集中在得分的前20%,因此,建议客户信誉等级分级结果为:前5%为A级(最高级),5~20%为B级,20~60%为C级,60~95%为D级,后5%为E级(最低级)[7]。
  表1  得分前5%纯度比对
  6  客户信誉与欠费风险关系
  根据客户信誉等级分级结果及客户欠费风险等级分群结果数据,采用OLAP多维切片分析,可视化分析展现二者之前的关系情况,如图2所示[8]。
  经过分析,我们可以看到电费欠费高风险的用户主要集中在最低信誉等级的E级,并且占比为48.34%,而最高信誉等级A级中的绝大多数客户均为电费欠费中低风险的用户,欠费高风险的用户占比仅为0.3%。为此,我们可以得到,信誉等级越高的用户,其发生欠费风险的情况基本越低,而信誉等级越低(信誉差)的用户其发生欠费的风险基本越高[9]。
  7  结  论
  综上,本文基于供电公司积累的大量电力营销数据,并基于大数据平台Edata数据挖掘工具,运用Logistic回归算法和评分卡模型,重新构建了电力档案客户的客户信誉等级,为营销档案客户的信誉等级的确定及更新提供了强有力的依据;同时,对全体用电客户进行了客户欠费风险的分群,标签化了全体用电客户,并利用OLAP多维切片分析,可视化展现了二者间的关系,极大地提高了供电公司业务分析人员的工作效率,具有广阔的应用前景[10]。
  参考文献:
  [1] 刘晓葳.基于数据挖掘的保险客户风险—贡献评级管理 [J].保险研究,2013(3):100-109.
  [2] 曾小青,徐秦,张丹,等.基于消费数据挖掘的多指标客户细分新方法 [J].计算机应用研究,2013,30(10):2944-2947.
  [3] 刘明学,陈祥,杨珊妮.基于逻辑回归模型和确定性系数的崩滑流危险性区划 [J].工程地质学报,2014,22(6):1250-1256.
  [4] 徐建民,粟武林,吴树芳,等.基于逻辑回归的微博用户可信度建模 [J].计算机工程与设计,2015,36(3):772-777.
  [5] 刘晓娜,封志明,姜鲁光.基于决策树分类的橡胶林地遥感识别 [J].农业工程学报,2013,29(24):163-172+365.
  [6] 张晓春,倪红芳,李娜.基于数据挖掘的供电企业客户细分方法及模型研究 [J].科技与管理,2013,15(6):104-109.
  [7] 张琪,周琳,陈亮,等.决策树模型用于结核病治疗方案的分类和预判 [J].中华疾病控制杂志,2015,19(5):510-513.
  [8] 覃文文,戢曉峰.基于K-means聚类的快递企业客户细分方法 [J].世界科技研究与发展,2011,33(6):955-958+969.
  [9] 张卫东,李媛.基于C5.0算法的电信用户流失预警分析 [J].宜宾学院学报,2014,14(6):119-122.
  [10] 魏巍.基于客户数据库的市场细分实证研究——以某高校网络超市数据为例 [J].河南工程学院学报(社会科学版),2011,26(2):32-38.
  作者简介:徐佳玲(1986.11-),女,汉族,浙江诸暨人,局域网及终端管理助理专责,助理工程师,本科,研究方向:终端局域网管理、资产管理。
其他文献
摘要 为分析我国咖啡种质遗传背景,提高咖啡资源保护与利用效率,利用31个SSR分子标记对我国主要的92份咖啡种质进行遗传多样性检测。结果表明.92份咖啡种质遗传相似系数变幅为0.666~0. 997,平均为0. 85,其中小粒种咖啡种内平均遗传相似系数为0.923。在遗传多样性分析基础上,利用5个SSR标记构建了25个中粒种咖啡品系的DNA指纹图谱。研究表明,我国咖啡种质资源遗传基础非常狭窄,利用