论文部分内容阅读
在数据的采集过程中,由于用户录入错误、环境改变、同一事物的不同表达、不同数据库相互融合等原因,录入到数据库中存放的数据往往存在着不完整、不一致、冲突或者不准确等问题。数据的存在是因为它的价值,有些数据用作证据,有些数据用来做分析和预测,不管数据的作用是什么,如果数据出现不准确、缺失以及其他问题,都会降低数据存在的价值,有时甚至带来深重的灾难。然而,数据集中数据质量问题的严重程度通常无法知晓,因此本文旨在通过对数据质量相关的文献进行梳理,总结在这方面的研究成果,重点讨论数据质量指标量化与评价方法,以得出当前数据质量的评价结果,进而采取相应的措施来提升数据质量,最终建立起数据质量评价与提升模型。本文的主要工作包括如下几个方面:(1)建立定量的数据质量评价模型。目前大部分的评价模型都是定性的,定量的很少或者只是从某一个单一维度,所以本文致力于提出一个定量的数据质量评价模型,从当前数据存在的主要问题出发,设计了数据质量的评价指标框架,并对完整性、一致性、准确性、时效性、规范性问题给出了明确的定义,制定了相应具体的评价算法。为了处理多个定量的指标值,对数据做出一个总体的评价,本文还引入了模糊综合评价方法,进而建立起七元数据质量评价模型。本文还选取了实验数据对模型进行实验,实验有效地对数据质量给出了评级,得到了良好的实验结果,证明了评价模型的可行性。(2)针对数据源中质量问题,本文提出了基于规则的数据质量提升算法,对数据质量的一致性、准确性、完整性、时效性、规范性进行提升。此外,本文按照字段在记录中的重要性的不同,分离出了决定性字段,并且结合属性相似度,最后实验证实了本文的方法能够有效、合理地修复数据集合上的质量问题,有效地提升数据准确性、一致性、规范性、时效性、完整性。