【摘 要】
:
随着现代化科学技术的发展,信息系统在越来越多的大中型企业、政府中得到了更加广泛的应用,由此也积累了大量的历史数据。随着业务数据的增长,业务的复杂程度提升,数据质量问
论文部分内容阅读
随着现代化科学技术的发展,信息系统在越来越多的大中型企业、政府中得到了更加广泛的应用,由此也积累了大量的历史数据。随着业务数据的增长,业务的复杂程度提升,数据质量问题也日益凸显。当人们意识到数据质量问题需要解决的重要性时,研究人员便制定出了一系列对数据质量问题进行检测和清洗的框架及思想。许多数据库厂商基于这些框架及思想开发出了各自的数据清洗工具。随着清洗工具和清洗理论的实施与应用,对于数据质量的提升起到了很好的作用,由此便体现出了数据清洗的重要性。贵州省局数据集中项目在集中前需要对九个市(州、地)和一个省直属局的数据进行清洗,已经集中到省局数据后也需要做相关的清洗工作。在本文中主要介绍了前期的清洗方案的设计及实现。本文结合当前市场清洗现状和各个市(州、地)的环境现状分析,最终选择的是采用编写特定的应用程序的方案。为了方便分析及发现数据质量问题,在应用过程中采取了通过反向工程等技术对各个市(州、地)的数据制定出类图及E-R模型。类图及E-R模型的制定方便了与业务人员的交流探讨,与技术人员的协调互助,同时也是制定清洗规则、编写存储过程等工作的有效指南。制定的清洗规则分为三类:查错规则,修改规则和备份规则。编写特定的应用程序的核心思想为,将清洗规则存储在规则表中,然后运用人工编写的存储过程和函数实行动态使用清洗规则。编写特定的应用程序是在清洗工作中是一个持续性的过程,原因是生产系统会在每天的运行过程中可能增加新的数据质量问题,为了很好的各个市(州、地)的生产数据的分析与清洗,该应用程序在后期的维护过程中也可以很方便的按照需要添加或修正清洗规则。同时,在数据清洗过程中,针对遇到的各种技术难点问题,如:如何对制定的清洗规则正确使用、如何正确应用物理Rowid访问数据和如何对大数据量的表处理与优化等,提出了解决方案。
其他文献
信阳市处于中国南北交界之地,各种文化交流密切,逐渐形成了以豫风楚韵为代表的地域文化特征,但如今随着现代化的城市发展,中心城区传统的历史建筑几乎消失殆尽,缺少了物质载
小麦条锈病是影响小麦产量和品质的主要病害,文县由于其特殊的地理位置及气候特点,属甘肃省条锈病多发易变区、重发区,已成为全国小麦条锈病发生流行的主要菌源地,小麦条锈病对当
用4 种不同阈能的活化箔测量和比较了两种铍系统中的绝对活化反应率。铍厚分别为5.3 和8.4 cm ,活化箔为In、Zn、Al和Cu。实验总误差为5 % ~7 % 。分析和比较了实验结果与用1-DANISN 程序和ENDF/B-Ⅵ库数据的计算结
为了更好地挖掘海量数据中蕴含的有效信息,提高短期负荷预测精度,针对负荷数据时序性和非线性的特点,提出了一种基于卷积神经网络(CNN)和长短期记忆(LSTM)网络的混合模型短期
化肥在提高作物产量和改善农产品品质方面的作用已广为人知,但不同品种的化肥有不同的施用特点和效果。笔者从资源需求、消费习惯和生产条件等不同方面对当前农业所需要化肥品
描述了用大角度(178.2°)伴随α粒子方法测量绝对D-T 聚变中子产额及其校对实验。为此,设计和加工了一套三叉管校对靶室。α粒子探测器分别置于与D+ 束成90°、135°和178.2°的方向上。测量和比较了
银行是现代经济的重要部门之一。在经济发展的早期,商业银行服务于社会各行业的投融资需求。就经营模式而言,我国目前实行的是分业经营模式,商业银行的主营业务为吸收存款、发放
<正> 德国是中国最重要的外商投资者之一,中德建交30年来,两国在投资与贸易领域取得了前所未有的成果。去年,中国取代日本成为德国在亚洲最大的贸易伙伴。德国已成为中国最大
未来动力总成的开发目标是具有更好的燃油经济性。为了实现这一目标,在研发新车型时,发动机将更多地采用涡轮增压技术。涡轮增压发动机的动力性和燃油经济性较好,但排放性能
20世纪以来,西方一些发达资本主义国家相继进入了老龄化社会,人口老龄化是当今世界的一个重要的突出特点。中国作为世界第一大人口国,已经在1999年步入了老龄化社会的行列,在发展