论文部分内容阅读
摘要:随着国家税务部门对涉税数据精确化管理的需要,迫切要求将各级税务机关的征管数据汇总,并进行分析和预测。鉴于我省核心征管系统省、市两级部署,分散应用,所以在数据集成的过程中对数据的准确性和及时性要求比较严格,就必须使用ETL技术来实现三级数据的集成。
关键词:ETL技术;税务部门;数据集成应用
中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)21-5255-03
ETL Technology in Land Tax Data Centralized Project
TANG Liang
(Local Taxation Bureau of Anhui Province,Electronic Tax Information Management Center,Hefei 230061,China)
Abstract:Along with the national tax authorities on tax data accurate management needs, requires the tax authorities at all levels of adminis tration and data collection, analysis and prediction. In view of our province core collection system of provincial and municipal levels, de ployment, distributed application, so the data integration in the process of data accuracy and timeliness requirements more stringent, you must use ETL technology to achieve level three data integration.
Key words:ETL technology;tax department;data integration application
为了加大地税系统数据向国家税务总局集中的力度,进一步提高税务系统税源监控和分析的能力,不断深化“信息管税”工作,国家税务总局于2010年5月底下发了《国家税务总局关于做好抽取全国地方税务系统税收征管有关数据准备工作的通知》(国税函〔2010〕235号),要求各省地方税务部门做好数据抽取相关准备工作,为了推进这一项目的实施,我省于2012年1月~3月启动了这项工作,经过近半年时间的施工和试运行,实现了全省17个市局核心征管数据的集中工作,系统目前运行情况比较稳定。
1系统功能
本项目为了完成从17个市局征管系统抽取数据的功能,将系统分别从功能、数据、技术三个角度描述系统的设计内容。功能实现方面,系统提供配置管理、数据抽取、质量管控、系统管理四个功能域。数据存储方面,将源系统表、目标系统表、系统配置表归属到抽取数据层、目标数据层、控制数据层三个层面中。技术实现方面,系统按照分层的思想将系统划分为了数据层、控制层、展现层三个层面。数据层采用Oracle、Sybase等主流数据库以及ETL平台进行数据的实际存储和抽取;控制层采用先进的工作流技术,完成抽取流程的定制和控制;展现层主要使用Ext/Flex等富客服端技术实现友好的客户界面。
2 ETL过程
数据抽取过程是首先检查17个市局系统数据库中的数据合理性,检查正确后将数据抽取到抽取数据层。系统进一步根据控制数据层的内容对抽取数据层的数据进行转换,将转换后的结果加载到目标数据层,目标数据层的数据供总局进行数据抽取。上述过程构成一个数据抽取的流程作业,每个作业都可以配置自动后台执行或页面上手工抽取,在执行过程中的某个环节一旦出现异常时,将通过异常管理模块进行通知和干预。
2.1数据检查环节
在数据检查环节,主要从接口数据的正确性、及时性和完整性等三个方面进行检查,同时根据入库是否异常、接收文件的时间等角度进行分析;对于业务应用系统的数据库接口,则主要从接口的及时性和一致性方面进行检查,通过比较源系统的相关指标,分析数据的可信度。
2.2数据抽取环节
数据抽取是指从数据源系统中获取数据,抽取策略包括抽取方式(增量、全量)、抽取周期等。
系统支持多种不同系统平台和数据类型的数据抽取。包括各种关系型数据库系统和各种文件格式的源数据等。
本次的数据抽取是从17个市局征管系统中把征管相关数据抽取到本系统的抽取数据层。每月初,系统17个市局征管系统将数据以数据文件的形式,完成全量复制;每天通过数据库接口通过数据抽取工具以增量复制方式完成数据同步。
2.3数据转换环节
数据转换包括格式和类型数据的转换、数据翻译、数据匹配、数据聚合以及其它复杂的计算等。多数情况下,数据源到本系统之间主要的转换是格式转换、数据翻译、数据匹配。
本次系统的数据转换主要是将各个数据源的数据按照国家税务总局的代码表进行转换,将转换的结果放到目的数据层。
2.4数据加载环节
数据加载是指将抽取转换后的数据加载到本系统中,包括数据行加载和数据块加载。在综合考虑效率和业务实现等因素基础上确定数据加载周期和数据追加策略。
2.5异常管理
主要通过计数/统计数平衡、拒绝数据量等方便评估数据复制、ETL的具体运行情况,以发现数据整合过程中有关数据的问题,并进行必要的处理。
支持检验点。当外部数据记录特别庞大时,如果因为某种原因发生故障中断后,可以从最近的校验点开始处恢复处理。支持外部数据记录的错误限制定义,同时将发生错误的数据记录输出。 2.6作业管理
作业管理主要包括初始化作业、日常ETL作业、日常复制作业、异常处理作业等,同时支持自动作业和人工作业。支持任务属性配置,可以对各项任务的属性进行配置,并保存在后台配置文件中,以备任务调度按序执行。
3 ETL部署
考虑到数据整合性能的关系,采用应用模块和ETL脚本执行模块分开部署的方式,通过统一的调度任务在ETL服务器上完成执行。
图2ETL部署
脚本、日志存储规划:脚本按目录存储,对应脚本管理表中的部署路径、文件名称等。原始日志统一存储在ETL服务上。为了后续能查看流程环节中脚本的原始日志,因此在原始日志命名上考虑采用“脚该文件名 环节实例ID”进行命名。由于ETL原始日志是在脚本执行时系统自动生成的,因此在调用接口服务时,同时需要传递环节实例ID参数。
数据整合的时序图如图3:
图3时序图
数据整合过程由任务调度模块或者人工进行启动,任务启动后调用相应的流程(异步),流程启动后生成任务日志。
流程引擎根据流程配置,执行流程环节,对于E、T、L环节生成脚本执行任务,脚本调度服务调度任务,当脚本执行完毕时写入执行结果,流程引擎定时读取执行结果;对于抽取前校验环节(主要是FTP数据整合前检验),根据配置的规则进行执行,对于FTP的访问调用中数据源统一服务设计中相关服务,对于人工环节,则生成环节及相应的参与人。
对于E、T、L环节,流程引擎除生成执行任务外,在任务完成后还需要根据配置的规则进行校验(先执行条件规则,然后执行动作规则),同时写规则日志。
流程引擎在执行环节过程中出现异常,或者在执行规则校验不通过时(包括单独的校验环节以及E、T、L环节中的规则),除更新流程自身状态外,均需要更新任务表中的状态。此外,在流程监控过程中,人工可以查看ETL执行的原始日志。
4实施效果
自今年以来,全国税务系统开展并完成了征管数据向国家税务总局集中的工作,这些数据为税务总局和各级国税机关实施税收科学化、专业化、精细化管理提供了有效支持,在税源管理、纳税评估、政策调整基础数据测算、政策效应分析、税务稽查等方面发挥了重要作用,同时也进一步提升了地税系统税收管理能力,强化税源监控工作。
参考文献:
[1]王时绘,伍江磊.ETL中数据清洗技术在税务系统中的应用[J].科技广场,2011(11).
[2]卢新生,金波.广东地税基于ETL元数据管理征管系统的研究与实现[J].顺德职业技术学院学报,2009(1):33-35.
关键词:ETL技术;税务部门;数据集成应用
中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)21-5255-03
ETL Technology in Land Tax Data Centralized Project
TANG Liang
(Local Taxation Bureau of Anhui Province,Electronic Tax Information Management Center,Hefei 230061,China)
Abstract:Along with the national tax authorities on tax data accurate management needs, requires the tax authorities at all levels of adminis tration and data collection, analysis and prediction. In view of our province core collection system of provincial and municipal levels, de ployment, distributed application, so the data integration in the process of data accuracy and timeliness requirements more stringent, you must use ETL technology to achieve level three data integration.
Key words:ETL technology;tax department;data integration application
为了加大地税系统数据向国家税务总局集中的力度,进一步提高税务系统税源监控和分析的能力,不断深化“信息管税”工作,国家税务总局于2010年5月底下发了《国家税务总局关于做好抽取全国地方税务系统税收征管有关数据准备工作的通知》(国税函〔2010〕235号),要求各省地方税务部门做好数据抽取相关准备工作,为了推进这一项目的实施,我省于2012年1月~3月启动了这项工作,经过近半年时间的施工和试运行,实现了全省17个市局核心征管数据的集中工作,系统目前运行情况比较稳定。
1系统功能
本项目为了完成从17个市局征管系统抽取数据的功能,将系统分别从功能、数据、技术三个角度描述系统的设计内容。功能实现方面,系统提供配置管理、数据抽取、质量管控、系统管理四个功能域。数据存储方面,将源系统表、目标系统表、系统配置表归属到抽取数据层、目标数据层、控制数据层三个层面中。技术实现方面,系统按照分层的思想将系统划分为了数据层、控制层、展现层三个层面。数据层采用Oracle、Sybase等主流数据库以及ETL平台进行数据的实际存储和抽取;控制层采用先进的工作流技术,完成抽取流程的定制和控制;展现层主要使用Ext/Flex等富客服端技术实现友好的客户界面。
2 ETL过程
数据抽取过程是首先检查17个市局系统数据库中的数据合理性,检查正确后将数据抽取到抽取数据层。系统进一步根据控制数据层的内容对抽取数据层的数据进行转换,将转换后的结果加载到目标数据层,目标数据层的数据供总局进行数据抽取。上述过程构成一个数据抽取的流程作业,每个作业都可以配置自动后台执行或页面上手工抽取,在执行过程中的某个环节一旦出现异常时,将通过异常管理模块进行通知和干预。
2.1数据检查环节
在数据检查环节,主要从接口数据的正确性、及时性和完整性等三个方面进行检查,同时根据入库是否异常、接收文件的时间等角度进行分析;对于业务应用系统的数据库接口,则主要从接口的及时性和一致性方面进行检查,通过比较源系统的相关指标,分析数据的可信度。
2.2数据抽取环节
数据抽取是指从数据源系统中获取数据,抽取策略包括抽取方式(增量、全量)、抽取周期等。
系统支持多种不同系统平台和数据类型的数据抽取。包括各种关系型数据库系统和各种文件格式的源数据等。
本次的数据抽取是从17个市局征管系统中把征管相关数据抽取到本系统的抽取数据层。每月初,系统17个市局征管系统将数据以数据文件的形式,完成全量复制;每天通过数据库接口通过数据抽取工具以增量复制方式完成数据同步。
2.3数据转换环节
数据转换包括格式和类型数据的转换、数据翻译、数据匹配、数据聚合以及其它复杂的计算等。多数情况下,数据源到本系统之间主要的转换是格式转换、数据翻译、数据匹配。
本次系统的数据转换主要是将各个数据源的数据按照国家税务总局的代码表进行转换,将转换的结果放到目的数据层。
2.4数据加载环节
数据加载是指将抽取转换后的数据加载到本系统中,包括数据行加载和数据块加载。在综合考虑效率和业务实现等因素基础上确定数据加载周期和数据追加策略。
2.5异常管理
主要通过计数/统计数平衡、拒绝数据量等方便评估数据复制、ETL的具体运行情况,以发现数据整合过程中有关数据的问题,并进行必要的处理。
支持检验点。当外部数据记录特别庞大时,如果因为某种原因发生故障中断后,可以从最近的校验点开始处恢复处理。支持外部数据记录的错误限制定义,同时将发生错误的数据记录输出。 2.6作业管理
作业管理主要包括初始化作业、日常ETL作业、日常复制作业、异常处理作业等,同时支持自动作业和人工作业。支持任务属性配置,可以对各项任务的属性进行配置,并保存在后台配置文件中,以备任务调度按序执行。
3 ETL部署
考虑到数据整合性能的关系,采用应用模块和ETL脚本执行模块分开部署的方式,通过统一的调度任务在ETL服务器上完成执行。
图2ETL部署
脚本、日志存储规划:脚本按目录存储,对应脚本管理表中的部署路径、文件名称等。原始日志统一存储在ETL服务上。为了后续能查看流程环节中脚本的原始日志,因此在原始日志命名上考虑采用“脚该文件名 环节实例ID”进行命名。由于ETL原始日志是在脚本执行时系统自动生成的,因此在调用接口服务时,同时需要传递环节实例ID参数。
数据整合的时序图如图3:
图3时序图
数据整合过程由任务调度模块或者人工进行启动,任务启动后调用相应的流程(异步),流程启动后生成任务日志。
流程引擎根据流程配置,执行流程环节,对于E、T、L环节生成脚本执行任务,脚本调度服务调度任务,当脚本执行完毕时写入执行结果,流程引擎定时读取执行结果;对于抽取前校验环节(主要是FTP数据整合前检验),根据配置的规则进行执行,对于FTP的访问调用中数据源统一服务设计中相关服务,对于人工环节,则生成环节及相应的参与人。
对于E、T、L环节,流程引擎除生成执行任务外,在任务完成后还需要根据配置的规则进行校验(先执行条件规则,然后执行动作规则),同时写规则日志。
流程引擎在执行环节过程中出现异常,或者在执行规则校验不通过时(包括单独的校验环节以及E、T、L环节中的规则),除更新流程自身状态外,均需要更新任务表中的状态。此外,在流程监控过程中,人工可以查看ETL执行的原始日志。
4实施效果
自今年以来,全国税务系统开展并完成了征管数据向国家税务总局集中的工作,这些数据为税务总局和各级国税机关实施税收科学化、专业化、精细化管理提供了有效支持,在税源管理、纳税评估、政策调整基础数据测算、政策效应分析、税务稽查等方面发挥了重要作用,同时也进一步提升了地税系统税收管理能力,强化税源监控工作。
参考文献:
[1]王时绘,伍江磊.ETL中数据清洗技术在税务系统中的应用[J].科技广场,2011(11).
[2]卢新生,金波.广东地税基于ETL元数据管理征管系统的研究与实现[J].顺德职业技术学院学报,2009(1):33-35.