【摘 要】
:
为了提高数据质量,国内外对影响数据质量的因素及改善数据质量的方法进行了大量研究。这些研究主要集中在数据仓库中的数据质量问题,提出了数据质量度量指标及指标的计算方法。
论文部分内容阅读
为了提高数据质量,国内外对影响数据质量的因素及改善数据质量的方法进行了大量研究。这些研究主要集中在数据仓库中的数据质量问题,提出了数据质量度量指标及指标的计算方法。目前对数据质量的研究主要存在以下问题:首先,没有形成系统化的数据质量评估指标,导致不能形成完整的数据质量体系;其次,还没有形成一个权威性的数据质量参考模型,当前的研究都是针对单一问题进行的;最后,数据质量内容的定义是变化的,这就需要数据质量模型具有相应的扩展性,以满足这种变化需求。针对这些问题重点进行了以下研究。首先,提出并构建了完整的数据质量评估体系。定义了准确性、一致性等七类数据质量元素和非空约束、值域约束等十五个维度的规则,其中数据质量元素用于描述数据质量,数据质量约束规则反映了具体业务规则和领域知识;对数据质量评估指标给出了定义和具体算法;提出了数据质量分析评估体系结构及流程,整个体系结构分为数据层和应用层。数据层包括实例层、模式层、数据质量层和数据质量扩展层,数据质量层即数据质量元模型,数据质量扩展层提供了对数据质量元模型的扩展;应用层包括数据质量分析评估层、展示层。再次,针对数据中心中存在的相似重复记录问题,采用了传统的“排序&合并”的方法,本文提出了一种改进的基于内码序值聚类的检测方法,在字符串匹配算法中本文借鉴了生物信息学中的序列比对算法。改进后的方法提高了检测效率,并在实际应用中取得了良好效果。最后,以大庆油田井下作业分公司数据中心数据质量检测与评估为背景,对所提出的数据质量检测与评估体系进行了设计与实现,该系统实现了对各种业务规则的管理与维护,对各种数据质量指标的评估。该系统已在井下作业数据中心运行,对数据中心的据质量的改善起到了重要作用。
其他文献
为了更好地应对基层保障人员在高技术武器装备现场保障过程中保障效能不足的问题,基于网络为中心的架构和标准化的信息描述,提出了一种装备现场级综合诊断系统的技术方案;利
Li2O-ZnO-Al2O3-SiO2(LZAS)系微晶玻璃具有可调节的线膨胀系数、优良的耐酸碱性能、强度大、化稳性好、抗热震性能好、软化变形温度较高、析晶温度相对较低等一系列的优点,如
导航技术是一种先进的现代化技术,它在航海、航天及军事等领域得到了广泛运用。随着科学技术的迅速发展,人们不断的尝试将不同种类的导航系统组合起来以提高导航与定位系统的
机器人视觉路径选择系统的性能,对于提高不同领域机器人应用性能具有重要的应用意义;提出了考虑最优路径数据挖据的机器人视觉路径选择系统的优化设计方法,分析了该系统组成
股骨颈骨折是临床上常见的骨折之一,其中约80%为移位的骨折。随着外科技术的发展和内固定材料的改进,我们在股骨颈骨折的治疗方面取得了一定的进步,但其骨折不愈合率和股骨头坏
“四位一体”生态农业模式是近年来在我国北方推广较快的一类生态农业模式,它已成为发展“高产、优质、高效”农业的一个较好模式,能有效解决农村能源供应、增加农民收入等诸
空心莲子草(俗称水花生),于20世纪30年代从日本引种至上海郊区,20世纪60年代至20世纪70年代作为“三水”饲料之一,被进一步引入我国长江流域及南方各省。20世纪80年代以来,蔓
本文分析了微课环境下大学英语课堂师生互动的必要性、特点,探讨了大学英语课堂师生互动的教学策略,以更好地提高微课环境下英语课堂师生互动的效率和教学质量。
2008年11月,胡锦涛在20国集团金融峰会期间多次谈到“金融市场”等问题,在与英国首相布朗会谈时也指出“当前,国际金融危机不断蔓延,特别是正由虚拟经济向实体经济渗透。”可
近年来,为提高测调效率,油田现场开展新型测试工艺试验,取得明显的效果。测调联作技术通过地面计算机控制井下可调堵塞器出液孔的开度,实现流量调节。现场试验10口井,平均单井分层