论文部分内容阅读
随着时间的流逝,人们设计的信息系统中收集了越来越多的数据,有的甚至达到了TB、PB以上这种海量的级别。一些因素如:内容过时、输入错误、重复输入、属性值冲突等严重影响着数据的质量。当前的算法都是需要依赖提前获知属性间依赖关系的,但现实中的数据的函数依赖关系并非都是已知的。为了克服种种因数据的质量所引发的问题,弥补当前方法的不足,我们提出了基于网络的数据清洗方法。互联网上有海量的知识可以用来支持数据的清洗工作,我们在检查一条数据是否满足质量要求的同时,可以根据关系数据的特点先从网络上获得其相应的文本模式的知识,然后根据模式的知识来检查数据的质量,并对不符合质量要求的数据进行清洗。本文首先对所研究的数据质量问题、数据清洗的内容、基于网络的数据清洗技术都给出了明确的定义。本文希望搭建一个基于网络知识的数据清洗框架,它首先将本地的关系数据中的元组进行分类。将其中确定正确的元组数据进行抽样并放到WEB上交互,以基于互联网检索内容的模糊匹配为工具,获得其相应的文本模式知识。然后利用找到的模式知识,对本地数据中存在质量问题且适用于此技术的数据进行基于网络知识的清洗。本文中所提出的基于网络的数据清洗框架共分为三大部分,第一部分是数据质量问题的检测,第二部分是模式的获取部分,最后一部分是清洗部分。其中数据质量问题的检测部分直接与另外两部分交互。模式的获取部分又可分为关键字生成、模式的获取两个模块。清洗部分包含可行元组的选择、基于获取到的模式的元组清洗、使用其它策略的清洗三个模块。最后,大量的实验验证了算法整体及部分子算法的有效性和高效性。