论文部分内容阅读
目前,各地财政部门都在进行金财工程大系统建设的探索工作,把分散在各个信息孤岛上的财政数据转换成集成统一的数据,最大限度的实现对财政资源的整合,而在这个过程中需要运用适宜的数据清洗策略,为财政预算编制与决策提供准确、一致、完整的信息。本文首先概述了金财工程和数据仓库技术,而后从分析数据质量问题开始,引出数据清洗的相关原理,并着重讨论了对不同数据质量问题采取的不同数据清洗策略。随后,本文描述了多源数据清洗在构建财政部门预算数据平台中的应用,并详细阐述了引入了数据清洗模块的数据抽取、转化和装载应用模型,通过对数据平台应用的整体架构的探讨,为财政预算数据仓库提供一个高效的数据平台。重点研究了数据抽取、转化和装载工具数据清洗策略的实现,并针对财政部门预算数据的特点,改进了相似重复记录清洗的算法。一是改进了记录匹配的计算方法,运用了与阀值相结合的相对文本编辑距离素计算文本相似度,解决了一部分拼写错误和大部分新老身份证号码的识别;二是运用不同关键字执行两趟基本近邻排序,提高了重复记录的检出;三是采用可变窗口,提高了清洗效率。并且还描述了空缺值、单一状态列、非标准字段、不可信极端数据处理的在数据抽取、转化和装载工具数据清洗模块中的实现算法。同时,总结了数据抽取、转化和装载实施数据清洗的工作流程。本文最后运用人员管理信息库和财政统发工资数据库的部分数据对数据抽取、转化和装载工具数据清洗模快进行了测试,并通过相似重复记录清洗不同算法的比较,测试了本文改进基本近邻排序算法的性能。综合测试实验结果,数据抽取、转化和装载工具的数据清洗模快能够针对财政部门预算数据平台中不同的数据质量问题采用不同的数据清洗策略实施数据清洗,为财政部门预算解决了财政供给政策分析和支出预算政策调整的基础数据来源问题。