论文部分内容阅读
摘 要:对于CRM系统而言,最重要的是全面丰富准确的客户数据,在数据中心建设过程中ETL技术和数据库技术是关键的两个方面。作者以自己参加的期货CRM项目为依托,阐述了期货CRM数据中心建设及ETL系统设计,对ETL技术的研究,ETL系统的设计和实现是本文研究的重点。
关键词:ETL技术 期货CRM 数据中心 规划与设计 数据库
1. ETL技术
ETL是将分布的、异构数据源中的业务数据经过抽取、转换、清洗后装载到数据仓库的过程。
典型的ETL工具具备数据抽取、数据转换、数据加载、元数据管理、数据质量保证、调度与监控、异常错误管理等功能。数据抽取是从多种异构数据源获取符合需求的数据过程,在一个ETL系统中,最起码包括全量数据抽取、增量数据抽取两种抽取模式;数据清洗与转换从数据源中抽取的数据不一定能完全满足目的库的要求,可能存在数据格式不一致、数据不完整、字段含义不一致、空值等问题,并且还需对数据进行聚合、汇总、统计等操作,数据清洗和转换过程是按照预先设计好的规则对抽取的数据进行处理并消除冗余、歧义、不完整、违反业务规则的数据,以满足目标数据的数据模型和数据质量的要求;数据加载是ETL流程的最后一个步骤,即将转换完的数据按照目标数据模型定义的表结构加载到目标数据库系统中。
2.期货CRM
期货CRM是指以客户为中心,恰当地提供期货产品和服务,提高客户的满意度,最大限度地减少客户流失,实现客户和期货公司的双赢。应用上主要实现客户关系管理、客户服务管理、市场营销管理、居间人管理及相关数据统计分析等,主要的业务需求:整合客户资源、客户分析与管理、统一营销管理、整合资讯和研报。
3.数据中心
CRM最关注的是客户数据,只有丰富全面的数据才能反映客户的需求。数据中心建设是CRM的基础关键所在,作为数据中心,其在整个信息化体系中,主要发挥以下作用:将传统以业务为导向的数据,加以采集、清洗、转换,成为以客户为导向的数据组织;形成以客户为中心的数据档案形式;为后台提供多形式的应用服务;为统计分析、数据挖掘提供基础支撑。
数据中心系统结构分为ETL、中心数据库、数据服务及管理程序四个子系统。ETL模块主要负责数据的抽取、清洗和转换,是数据中心建设的基础,该模块采用自主研发的ETL系统实现。中心数据库用于存放经过数据抽取系统清洗转换后的数据,并作为数据服务系统的数据来源。中心数据库需要满足对海量数据、高性能、高可用性和扩展性的支持,本项目采用ORACLE RAC数据库系统。数据服务采用主动推送和服务访问两种方式互相结合,对外围业务系统提供数据支持。管理程序对系统中涉及的各个应用程序进行统一的状态监控、统一的日志查询,同时用于管理数据中心的历史数据,数据库的日常备份等。
4. ETL规划与设计
根据金融期货数据中心的特点,本项目ETL系统采用自主研发形式实现,整个ETL由采集AR、采集AS、数据抽取组件、数据转换组件、数据采集服务器组成。ETL体系结构如下。
(1)采集流程。ETL系统支持多个抽取程序并发处理,数据采集服务器向采集AR发出采集命令,采集AR再将采集命令路由到采集AS,由采集AS完成相应数据源的数据抽取工作,并将数据传送到数据采集服务,这些数据经数据采集程序清洗转换最终将数据存放在数据中心,以方便其他系统使用。
(2)数据抽取模式。系统支持实时、日终和历史三种抽取模式:实时数据抽取是指主要用于实时监控功能;日终数据抽取是指抽取清算后的数据信息;历史数据抽取是指将数据源中指定日期的历史数据抽取到数据中心。
(3)数据清洗转换。数据转换的任务主要进行不一致数据的转换,数据粒度的转换,以及一些业务规则的计算,如空值处理,数据类型不一致处理,将细粒度数据聚合成粗粒度数据,业务规则计算,等等。系统数据清洗转换通过两种方式实现:采集程序在数据采集过程中通过转换规则进行数据转换,并将转换的数据加载到数据中心;通过单独的转换组件对数据中心的数据进行统计、汇总。
(4)数据加载。将转换完的数据按照目标数据模型定义的表结构加载到目标数据库系统中。本ETL系统采用实时增量抽取模式和日终数据抽取和历史数据抽取模式两种数据加载方式。
(5)并发与负载均衡。为了提高ETL性能,系统具备并行处理能力,系统通过采集AS、采集AR、采集服务器的n∶1∶1的组合方式实现并行和负载均衡,同时也实现了分布式抽取的功能。
(6)数据质量保证。本ETL系统通过以下几种方式保证数据的准确性和完整性:系统通过核对数据源端和数据中心端的记录数,相关字段的汇总值,生成核对报告,以保证数据采集的一致完整性;数据中心的数据表上增加了数据库规则的检查,保证主键唯一、实体完整、字段非空;通过异常处理模块,从另一个角度保证数据质量。
5.结语
建设一个高效CRM系统,最为关键的是通过建设数据中心,将分散在各个系统中的客户数据进行整合和汇总,为CRM系统提供统一的客户视图,本文是基于期货公司CRM系统数据中心的设计与实现基础上完成的,介绍了期货公司数据中心建设过程,并对ETL过程进行了重点研究。
目前,本ETL系统在期货数据中心生产环境稳定运行,但随着期货行业的发展,数据量快速增加,实时性要求越来越高,开发一个能支撑海量数据、高吞吐量和响应时间的ETL系统是行业发展的必然要求。
参考文献
[1]W.H.Inmon.王志海,林友芳等译.数据仓库(原书第四版)[M].北京:机械工业出版社,2006.8.
[2]Ralph Kimball著.唐富年,孙媛媛译.数据仓库生命周期工具箱(第二版)[M].北京:清华大学出版社,2009.9.
[3]PHILIP Russom.操作型数据仓库——操作型应用和数据仓库之间整合[M].TTNN Group,2010.6.
关键词:ETL技术 期货CRM 数据中心 规划与设计 数据库
1. ETL技术
ETL是将分布的、异构数据源中的业务数据经过抽取、转换、清洗后装载到数据仓库的过程。
典型的ETL工具具备数据抽取、数据转换、数据加载、元数据管理、数据质量保证、调度与监控、异常错误管理等功能。数据抽取是从多种异构数据源获取符合需求的数据过程,在一个ETL系统中,最起码包括全量数据抽取、增量数据抽取两种抽取模式;数据清洗与转换从数据源中抽取的数据不一定能完全满足目的库的要求,可能存在数据格式不一致、数据不完整、字段含义不一致、空值等问题,并且还需对数据进行聚合、汇总、统计等操作,数据清洗和转换过程是按照预先设计好的规则对抽取的数据进行处理并消除冗余、歧义、不完整、违反业务规则的数据,以满足目标数据的数据模型和数据质量的要求;数据加载是ETL流程的最后一个步骤,即将转换完的数据按照目标数据模型定义的表结构加载到目标数据库系统中。
2.期货CRM
期货CRM是指以客户为中心,恰当地提供期货产品和服务,提高客户的满意度,最大限度地减少客户流失,实现客户和期货公司的双赢。应用上主要实现客户关系管理、客户服务管理、市场营销管理、居间人管理及相关数据统计分析等,主要的业务需求:整合客户资源、客户分析与管理、统一营销管理、整合资讯和研报。
3.数据中心
CRM最关注的是客户数据,只有丰富全面的数据才能反映客户的需求。数据中心建设是CRM的基础关键所在,作为数据中心,其在整个信息化体系中,主要发挥以下作用:将传统以业务为导向的数据,加以采集、清洗、转换,成为以客户为导向的数据组织;形成以客户为中心的数据档案形式;为后台提供多形式的应用服务;为统计分析、数据挖掘提供基础支撑。
数据中心系统结构分为ETL、中心数据库、数据服务及管理程序四个子系统。ETL模块主要负责数据的抽取、清洗和转换,是数据中心建设的基础,该模块采用自主研发的ETL系统实现。中心数据库用于存放经过数据抽取系统清洗转换后的数据,并作为数据服务系统的数据来源。中心数据库需要满足对海量数据、高性能、高可用性和扩展性的支持,本项目采用ORACLE RAC数据库系统。数据服务采用主动推送和服务访问两种方式互相结合,对外围业务系统提供数据支持。管理程序对系统中涉及的各个应用程序进行统一的状态监控、统一的日志查询,同时用于管理数据中心的历史数据,数据库的日常备份等。
4. ETL规划与设计
根据金融期货数据中心的特点,本项目ETL系统采用自主研发形式实现,整个ETL由采集AR、采集AS、数据抽取组件、数据转换组件、数据采集服务器组成。ETL体系结构如下。
(1)采集流程。ETL系统支持多个抽取程序并发处理,数据采集服务器向采集AR发出采集命令,采集AR再将采集命令路由到采集AS,由采集AS完成相应数据源的数据抽取工作,并将数据传送到数据采集服务,这些数据经数据采集程序清洗转换最终将数据存放在数据中心,以方便其他系统使用。
(2)数据抽取模式。系统支持实时、日终和历史三种抽取模式:实时数据抽取是指主要用于实时监控功能;日终数据抽取是指抽取清算后的数据信息;历史数据抽取是指将数据源中指定日期的历史数据抽取到数据中心。
(3)数据清洗转换。数据转换的任务主要进行不一致数据的转换,数据粒度的转换,以及一些业务规则的计算,如空值处理,数据类型不一致处理,将细粒度数据聚合成粗粒度数据,业务规则计算,等等。系统数据清洗转换通过两种方式实现:采集程序在数据采集过程中通过转换规则进行数据转换,并将转换的数据加载到数据中心;通过单独的转换组件对数据中心的数据进行统计、汇总。
(4)数据加载。将转换完的数据按照目标数据模型定义的表结构加载到目标数据库系统中。本ETL系统采用实时增量抽取模式和日终数据抽取和历史数据抽取模式两种数据加载方式。
(5)并发与负载均衡。为了提高ETL性能,系统具备并行处理能力,系统通过采集AS、采集AR、采集服务器的n∶1∶1的组合方式实现并行和负载均衡,同时也实现了分布式抽取的功能。
(6)数据质量保证。本ETL系统通过以下几种方式保证数据的准确性和完整性:系统通过核对数据源端和数据中心端的记录数,相关字段的汇总值,生成核对报告,以保证数据采集的一致完整性;数据中心的数据表上增加了数据库规则的检查,保证主键唯一、实体完整、字段非空;通过异常处理模块,从另一个角度保证数据质量。
5.结语
建设一个高效CRM系统,最为关键的是通过建设数据中心,将分散在各个系统中的客户数据进行整合和汇总,为CRM系统提供统一的客户视图,本文是基于期货公司CRM系统数据中心的设计与实现基础上完成的,介绍了期货公司数据中心建设过程,并对ETL过程进行了重点研究。
目前,本ETL系统在期货数据中心生产环境稳定运行,但随着期货行业的发展,数据量快速增加,实时性要求越来越高,开发一个能支撑海量数据、高吞吐量和响应时间的ETL系统是行业发展的必然要求。
参考文献
[1]W.H.Inmon.王志海,林友芳等译.数据仓库(原书第四版)[M].北京:机械工业出版社,2006.8.
[2]Ralph Kimball著.唐富年,孙媛媛译.数据仓库生命周期工具箱(第二版)[M].北京:清华大学出版社,2009.9.
[3]PHILIP Russom.操作型数据仓库——操作型应用和数据仓库之间整合[M].TTNN Group,2010.6.