提高信息系统数据质量的方法

来源 :城市建设理论研究 | 被引量 : 0次 | 上传用户：clisav

【摘要】

：

【作者】

：

陈君

【出处】

：

城市建设理论研究

【发表日期】

：

2012年8期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：随着社会的发展与进步，重视提高信息系统数据质量的方法具有重要的意义。本文主要介绍提高信息系统数据质量的方法的有关内容。
　　关键词信息系统数据质量技术
　　Abstract: along with the development of social development and progress, pay attention to improving the quality of the information system data method has the vital significance. This paper mainly introduces the information system of data quality improving the relevant contents of the method.
　　Key words; information system data quality technology
　　
　　
　　中图分类号：O213.1 文献标识码：A 文章编号
　　引言
　　随着信息处理技术的不断发展，各行各业已建立了很多计算机信息系统，积累了大量的数据。为了使数据能够有效地支持组织的日常运作和决策，要求数据可靠无误，能够准确地反映现实世界的状况。数据是信息的载体，好的数据质量使各种数据分析(如OLAP分析、数据挖掘等)能够得到有意义结果的基本条件。人们常常抱怨所谓的“数据丰富，信息贫乏”，其中一个原因是缺乏有效的数据分析技术，而另一个重要原因则是数据质量不高，如数据残缺不全、数据不一致、数据重复等，导致数据不能有效地被利用。数据质量管理如同产品质量管理一样贯穿于数据生命周期的各个阶段，但目前尚缺乏一个系统的思路。数据质量的研究由来已久，涉及到统计学、人工智能、数据库等各个领域。
　　1．数据质量问题对信息系统的影响
　　数据质量引发的问题是多方面的，下面就一些常见的质量问题分析它们的后果。
　　(1)填充无意义的默认值。有些数据可能没有具体的值，例如一个职工没有参加社会保障，则其档案中相应的社会保障号码一栏就会为空。在旧式文件系统中“空”的概念就是什么都没有，这是不容许的。对这种情况，数据输入程序和输入人员往往会造出一个值来填充，他可能会选择一个无意义的数据，或有意无意填充一个特殊的数据，这样用户在查询该项数据时，产生不信任感，同时也会造成系统安全的隐患。
　　(2)数据遗漏。不同的业务部门对数据有不同的需求，以便执行它们的业务操作，某些业务在系统开发时可能还未开展，或是并不重要，这些因素会造成数据遗漏，例如有关读者的年龄、种族、爱好等数据，在办理图书资料借阅流通业务时是用不到的，然而在对读者进行主动信息服务时却非常重要，这类数据的缺省将造成对读者资料分析或查询结果的障碍或曲解，使得无法准确地分析读者的信息需求，无法准确判断哪一种服务方式对读者最具吸引力，进而影响到改进图书馆服务方式的战略决策。
　　(3)违背业务规则的矛盾值。包括明显违背业务规则的不准确、不合逻辑的数据值，或是在根据记录中的其他字段值来生成某些字段值时发生了错误和矛盾的数据值。例如浮动利率贷款的最低利率居然高于最高利率，那么按最低利率计算贷款利息时，公司实际上蒙受了损失。又如，例如一个北京的公司被错误地赋予了一个武汉地区的邮政编码，在按地域统计公司的业务信息时，就会导致错误结论。
　　(4)多义数据项。表现在数据库和文件中，同一数据项(即字段)被定义为许多不同的意义，或是数据项的值被用于多个目的。例如某数据项原来定义的是日期类型，又重定义为字符串类型，这样在处理过程中就会发生冲突或混乱，造成错误，而单纯地去除重定义又可能发生数据遗漏问题。数据项的重用会给查询带来麻烦，例如值A、B、C可能代表业务部门类型码，如“采编部”、“流通部”、“服务部”，而值x、Y、z可能代表读者类型码，如“教师”、“学生”、“职工”，那么在查询或对业务部门进行排序时，必须排除x、Y、z。如果没有弄清数据项的值域或当前使用的排除规则，错误地纳入或排除了某个值，查询结果将会出错，而且用户不会意识到。
　　(5)键码残缺或重复。应该关联的数据没有关联，即由于考虑不周全或出于困难没有建立联结两个对象的键码，例如，每一位新客户在银行都会分配一个惟一的账号，但很少有银行为每一位客户分配一个客户号，这样账号只能通过账户记录中的客户姓名与客户发生关系，而客户姓名缺乏惟一性，想查询账户与客户的相互关系就很困难。另一个极端是一个对象被多个键码所标记。如一个员工拥有几个员工号，因为他在几个部门中工作过，每次更换工作就分配一个新的员工号，而旧的员工号又可能被再次分配给他人，此时若要进行该员工长期的绩效、薪金、福利等分析就根本不可能。键码重复的后果也是严重的，有些事务型处理系统很少存放超过90～180天的历史数据，因而键码值常常被重新分配使用，这样就无法进行任何趋势分析，因为同样的键码值表示着不同时期的不同内容。
　　(6)非结构化的数据项及数据值。有些文件中备注型的数据项没有清晰的格式，每条记录在填写数据值时都可能以不同的秩序，例如一个地址的数据项有时按邮编、省份、街道顺序填写，而有时却按街道、省份、邮编的顺序，由此很容易被分解为单独属性的内容就无法用SQL语句来查询或分析。还有的现象是一个数据项被用于多种目的，即不该关联的数据却联系在一起，例如两个不同的业务系统都向同一个数据文件写入数据，这种相互混杂的对象使得用户无法进行判断。
　　2.提高数据质量问题的方法
　　数据质量的保障可借鉴企业生产的“全面质量”管理思想，对数据进行全员参与、全方位、全过程的质量控制，即从人、制度、技术等角度来制定相应措施。下面列举的是其中一些切实可行的方法。
　　(1)专职的数据质量分析员。尽管与信息系统相关的每一个人都有确保数据质量的义务，但必须有专职的人员去监督和担负起数据质量保障的职责，这就是数据质量员。数据质量员应发现和报告那些同数据质量有关的问题，他可以通过数据质量分析工具进行查询，以鉴别出数据质量问题；并着手调查这些问题，估计解决问题所需的费用和牵涉的部门及利益相关者，区分出问题的轻重缓急，以向数据管理部门上报；确保那些必须解决的数据质量问题已有专人负责。并且数据质量分析员要加入到解决问题的研究和实施过程中，以提高和改善数据处理流程的质量。
　　(2)专门的用户联络人。用户联络人来自业务部门，是在用户中享有信誉、受用户信任的人。用户拥有数据，他们知道数据的有效范围，也知道他们将会需要的数据和它们的组织形式，用户决定数据访问权限、数据的可用性要求，并处于证实数据质量的极佳位置。设立用户联络人旨在用户与系统开发者之间建立联系，监督数据的质量。为确立数据的现实界定、数据的类型以及它们的总体安排提供帮助；对数据应该是具体的还是摘要的，及其安全性提出建议；在用户需求很多、时间有限且资料不够时，能够优先考虑向哪些需求提供帮助。
　　(3)元数据的支持。元数据是一种很好的“导航”(Navigation)数据。一旦原始数据被清理、转化、整合、简化乃至以各种形式被剖析，若不借助元数据将无法在数据仓库中重新定位该数据。元数据能告诉人们数据的来源、数据上一次的更新时间、数据的所有者、数据的含义、数据的转换方式以及数据值的可靠程度等。数据质量指数也可以作为元数据存储于数据库中。元数据有两种类型：业务元數据和技术元数据。业务元数据是为用户服务的，在日常基础上向用户解释他们使用的数据；技术元数据同时向用户和技术人员提供帮助，帮助他们研究像迷宫一样复杂的图表和计划(这些东西是被用来解释和维持数据仓库以及与此相关联的程序的)。值得注意的是，必须制定一定的规则，明确并分配获取和维护元数据的权利和责任，同时还要确定它的使用方式和时间，保证元数据的完整和准确。
　　(4)严格的数据规范。一个好的数据逻辑结构应该是没有冗余的、灵活的、简单的，并可适用于多个不同的应用，在对数据库进行操作时应消除插入异常，删除异常现象。数据库的规范化理论已经提出并应用了30多年，从1NF(First Normal Form)2NF、3NF、BCNF(Poyce／Ccdd Normal Form)、4NF到5NF，它们通过消除具有重复组的数据项，消除多次出现的数据，以及消除不依赖于键码的属性等步骤，提高数据库结构的规范化，以避免可能出现的会降低数据库内容可靠性的问题和异常情况。实践证明这种规范化理论是非常有效的。另外，在数据录入时建立一些规范化指南和控制，可以使用抽取、转化、加载工具(extract／transform／loadl，ETL)，许多ETL本身具有数据清理功能。也可以使用专门的清理工具用于清理不符合标准的数据，诸如数据类型不合、数据值溢出、数据无效、与业务规则冲突以及错误的地址等等之类。现在市面上的数据清理产品能够解决大多数系统共有的带普遍性的数据质量问题。
　　(5)区分数据清理的优先级。每个人都希望高质量地控制所有的数据。但这是不现实的。我们可以运用各种手段尽可能地检测出系统中存在或暗藏的数据质量问题；评估其可能造成的不良后果，并进行可行性分析，包括各种解决方案的成本与功效，以及技术上的可能性；将解决方案的成本与不解决它所带来的损失进行对比，若损失大于解决方案的成本，就将该项解决方案放人“待解决”的清单中；对“待解决”清单中的各种解决方案列出优先顺序。对大多数情况而言，使用事务型数据的用户不需要更加“清洁”的数據，而那些具有深层次意义的数据必须保证其应有的质量，所以应当获得最高的清理优先级。
　　3.结束语
　　人工智能与数据挖掘等技术使信息系统的开发迈向了一个更高阶段，但就目前应用的信息系统状况来看，仍然存在许多问题，像数据定义不一致，历史数据无法使用，数据尚未集成，数据难以共享的现象最为普遍。由于信息系统应用的成效直接取决于所处理的信息的质量和可靠性，因而从多个数据源生成清洁、完整、一致、协调的高质量数据便成了当前信息系统，尤其是基于大型数据库的信息系统研究中亟待解决的关键问题。
　　参考文献
　　1 [美]锡德·阿德尔曼，拉罩萨·特佩卢克·莫斯著；薛宇，王剑锋译．数据仓库项目管理．北京：清华大学出版社，2010
　　2[美]斯太尔，雷诺兹著；张靖，蒋传海译．信息系统原理．北京：机械工业出版社，2009
　　3俞瑞钊，陈奇智能决策支持系统实现技术杭州：浙江大学出版社，2011

其他文献

市政给排水设计与规划中常见问题的分析

摘要：市政给排水工程是城市基础设施重要组成部分，做好城市市政给排水规划设计，对建设现代化城市人居环境意义重大，本文笔者根据多年工作经验对市政排水设计与规划中常见问题进行探讨。　　关键词：给排水设计；规划；分析　　Abstract: the municipal water supply and drainage engineering is an important part of urban in

期刊

长螺旋钻机施工CFG桩施工工艺及质量控制

摘要：本文结合武广铁路客运专线CFG桩施工实际，详细阐述了长螺旋钻机施工CFG桩的施工工艺及质量控制要点，介绍了常见的质量问题及预防措施，为CFG桩复合地基加固处理软弱地基在今后工程实践中的应用提供了借鉴和参考。　　关键词：长螺旋钻机CFG桩施工工艺质量控制　　Abstract: this paper wuhan-guangzhou railway passenger special li

期刊

低压配电线路现状与电气火灾预防

摘要：文章通过对我国低压配电线路的现状及电气火灾成因的分析研究，根据我国电气火灾发生的特点及电气火灾防治工作中存在的问题，有针对性地提出了低压配电线路火灾的综合预防对策。　　关键词：低压配电线路，电气火灾，预防　　Abstract: analysis of the status of low-voltage distribution lines and electrical fires, the

期刊

如何有效的治理不同工程项目中的边坡问题

摘要：伴随着社会的不断发展，技术的不断延伸，建设事业在近几年里呈现出飞速发展的态势，不管是在城市楼宇建筑、景观建筑、水利水电设施建设，还是在公路、铁路、港口等方面的建筑，都取得了巨大的成绩。在这些工程建设中，都不可避免的会遇到边坡形成的地质问题，边坡的防治工程是一项十分复杂且具有相当难度的技术工程，它能够通过对地质结构的分析，达到对灾害做到及时的预防与治理。随着目前大型工程的不断增加，对于不同情况

期刊

光传输网光纤在线监测系统的设计

摘要：分析了光纤在线监测系统的必要性，对光纤在线监测系统在通讯技术上的可行性和软件功能进行了探讨，举例论述了主要站点的配置方法。　　关键词:光纤在线监测光纤在线监测系统配置软件功能　　Abstract: the author analyzes the on-line monitoring system of optical fiber, the necessity of on-line moni

期刊

水利工程合同管理的有效策略

摘要：施工项目合同管理属于基础管理环节，是影响到整个施工项目的成败与否的核心管理环节，整个工程项目中处处均可见其行迹。基于此，本文主要对水利工程合同管理的有效策略进行探讨。　　关键词：水利工程；合同管理；有效管理　　Abstract: the construction project contract management belong to the basic management link i

期刊

循环氨水管道腐蚀的浅析与预防

摘要：焦化厂循环氨水管道泄漏问题是困扰施工企业与建设单位多年的老问题了，许多氨水管道在投入生产后1~3个月就会产生泄漏，而且腐蚀速度极快，由于氨水在温度高时的不稳定性，对于管道泄漏的维修也是非常棘手的问题，那么究竟是原因造成氨水管道在这么短的时间就泄漏了呢？本文作者就多次在焦化项目施工期间处理类似问题以及分析解决问题，总结了一些预防措施与经验。希望对焦化施工中氨水管道安装有所帮助。　　关键词：氨水

期刊

房地产项目施工阶段造价管理

摘要：应尽量减少设计变更,如果必须对设计进行变更,应尽量提前,变更发生得越早损失越小,反之就越大,尤其对造价影响较大的设计变更,更要用先算账后变更的方法解决,多年来在房地产开发建设领域内还没有或极少有不发生设计变更的现象,关键是怎样变更最合理、最经济,又能达到设计功能,所以应重点加强设计变更的管理,才能使工程造价得到有效控制。本文阐述了施工阶段工程造价控制和管理的重要性，探讨了房地产项目施工阶段的

期刊

浅谈施工现场管理

摘要：随着施工生产的进步，粗放型管理越来越不能满足施工生产的步伐，充足的准备工作、合理的施工工序，减少施工资源浪费才能让我们在激烈的竞争不被淘汰。下面是个人在施工生产中一点粗浅看法，仅供参考。　　关键词：施工准备施工工序施工资源配置　　Abstract: along with the progress of the construction production, more and more

期刊

小议重庆山区农村公路路线的选取

摘要:公路选线是在公路修建过程中是一道非常重要的阶段，它涉及面广、影响因素多，尤其是对重庆的山区农村公路，重庆山区地形崎岖复杂，设计时应在充分理解设计标准的前提下，根据地形、地质、气候情况和环保等要求，综合考虑路线的各项技术指标，使设计方案既经济又能满足使用要求，实现最大的社会效益。本文通过对重庆山区农村公路特点、几种常见的山区地形路线的选取及选线过程中应该注意的问题的分析，以期得到适用于重庆山区

期刊

提高信息系统数据质量的方法

与本文相关的学术论文