论文部分内容阅读
国家税务总局作为统筹全国税务数据的负责单位,在金税三期工程在全国范围内顺利推广上线之后,提出了将全国税务数据集中予以挖掘分析以及利用,因此金税三期子项目即大数据云平台项目应运而生。大数据技术在各行各业的不断普及应用,使得运用大数据技术解决税务问题已经成为税收现代化建设的重要指标之一。全国税务数据范围覆盖国、地税70+个上线单位的源头数据、总局和各省局的外部门交换数据以及从互联网渠道获取的开放数据。考虑这些数据量大冗杂的特性,本文系根据国家税务总局提出的关于数据归集的实际需求,完成了企业与自然人数据归集系统的设计与实现。本文基于软件工程处理问题的思想,描述系统的需求分析和设计实现的语言采用的是UML(统一建模语言),采用RUP(统一过程)的软件开发方法,利用阿里搭建的税务专有云平台为框架,全面分析了企业与自然人数据归集系统的6个子系统,并且对各个子系统进行了详细的设计与实现。目前,系统完成了包括数据同步配置文件产出管理、datax脚本调用管理、同步任务执行管理、编码转换管理、数据预处理管理、数据相似度计算管理以归集MapReduce实现管理等在内的一系列功能模块。应用于税务专有云平台开发环境中,经过测试后基本满足了总局提出的关于归集的业务指标,达到了预先估定的效果要求,较好的实现了全国71家税务单位企业与自然人数据的高效准确归集,增强了税务数据的可用性,为后续税务数据的应用展示提供了高质量的数据服务。由于本次研究所用的数据为特点明显的税务数据,所用的平台为阿里的MAXCOMPUTE平台,因此只适用于处理税务相关的需求,具有一定的局限性。但在处理税务数据方面仍具有很强的可用性。