数据中心基于规则的数据质量检测方法的研究与实验分析

来源 :暨南大学 | 被引量 : 0次 | 上传用户:jingheli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着如今企业的规模扩大,伴随而来的是数据量的巨大膨胀,这是业务发展的结果。但是,数据量的增大不可避免地带来了数据质量的问题,而数据质量关乎到整个企业的管理质量和业务运行。在当前数据中心建设的过程中,由于该进程处于高速发展阶段,因此存在不同的特点和需求,也就造成了对数据质量研究的缺乏,而根据数据调查显示,大部分企业的信息化系统存在不同程度的数据重复和数据不完整的现象。因此,越来越多的企业和机构在建设信息化系统的同时,亦对内部的数据质量投入了较大的精力进行把控。数据质量主要在以下六个方面进行判断:准确性、完整性、一致性、及时性、可理解性和可获取性。为了能够实现对数据质量提高的目的,本论文将从对数据自动采集、质量检测以及数据修复三方面进行考虑,研究一种基于规则的数据质量管理算法,建设数据质量检测模型,该模型包含的有数据对象、数据质量信息采集、数据质量规则、质量检测、质量评估及报告和问题分析及处理等五个模块,并开发了数据质量检测系统,可用于规则库创立、数据质量检测以及数据修复等功能,具有较强的实用性。本文采用的一种基于规则表达树的树型方式来对描述所运用的数据检测规则,由于采用了xml的方式,因此可以快速地将表达树直接映射到xml文件中,且能容易地发现大型数据库中的函数依赖关系。在数据质量检测方面,首先需对表达式的逆规则进行检索,针对关系型数据库,需将逆规则表达式用SQL语句重新表达并执行,已达到发现异常数据的目的;针对xml类型的数据,则用XQuery语句进行转换并执行,对异常数据进行检测;在数据修复方面,本文主要对空缺值进行了修复,即运用表达式求出异常元素的值,并填充至数据对象中。最后,在本文设计的数据质量检测系统中,对系统进行了压力测试,并分别从数据完整性、有效性和唯一性对数据处理前后进行了对比。
其他文献
对比研究了干旱半干旱区当归[Angelica sinensis(Oliv.) Diels]设施秸秆育苗和露地秸秆育苗2种技术对当归种苗的质量和产量的影响,并进行了试验示范。结果表明:在播种量及土
目的:探讨肝肾双排法对染铅大鼠学习记忆能力及海马损伤的干预作用。方法:将64只SD大鼠随机分为正常组、模型组、依地酸钠钙组(EDTA组)、利胆醇组、EDTA+利胆醇组和利胆补肾
玄武区是南京市的政治文化中心区,现有365万人口,10个街道、126个居委会和12个行政村。驻区企事业单位多,有党员近15万人,有着丰富的组织资源。改革开放以来,我区范围内新经济组织不断增多
<正>镜头语言是电视新闻节目表达的重要工具。如何合理且技巧性地运用丰富多元的镜头语言,更好地"讲述"新闻事件,是电视新闻工作者所应思考的重要问题。本文对电视新闻摄像中
<正>2012年天津卫视成绩斐然,35城市网全天排名第四,29省网进入前十。2012年8月16日,继《奋斗》、《我的青春谁做主》之后,"青春三部曲"最终曲《北京青年》重磅出击,拉开天津
课程统整内在包含着知识统整、经验统整和社会统整等多方面统整。其中,经验统整是有效达至知识统整和社会统整等的关键步骤和重要手段。当前,我国社会科在经验统整时还存在着
药品审评专家咨询制度是药品审评科学性与公正性的重要制度保障。本文概括了我国药品审评先后经历的药品审评委员会、专家库与专家咨询委员会的专家咨询制度各自的特点,比较
在音乐教育的课堂教学中,创造性的训练无处不在。而歌词编创是音乐创造教学中的一个不可缺少的内容。本文着重对"如何优化歌词编创"的意义和策略进行了研究,以期对小学音乐课
研究了新型掺钕磷酸盐激光玻璃在高能量闪光灯抽运条件下的热破坏性质。激光输出实验表明这种为重复频率激光工作设计的钕玻璃,具有与高峰值功率应用类型的钕玻璃基本相近的
为了解决坦家冲煤矿2264-1N-S采煤工作面回风巷瓦斯浓度频繁超限问题,提高本煤层钻孔瓦斯抽采率,降低煤与瓦斯突出危险性,提出采用水力压裂增透技术提高煤层透气性。通过对压