基于网络的数据清洗技术研究

被引量 : 0次 | 上传用户:xuxuanxxd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时间的流逝,人们设计的信息系统中收集了越来越多的数据,有的甚至达到了TB、PB以上这种海量的级别。一些因素如:内容过时、输入错误、重复输入、属性值冲突等严重影响着数据的质量。当前的算法都是需要依赖提前获知属性间依赖关系的,但现实中的数据的函数依赖关系并非都是已知的。为了克服种种因数据的质量所引发的问题,弥补当前方法的不足,我们提出了基于网络的数据清洗方法。互联网上有海量的知识可以用来支持数据的清洗工作,我们在检查一条数据是否满足质量要求的同时,可以根据关系数据的特点先从网络上获得其相应的文本模式的知识,然后根据模式的知识来检查数据的质量,并对不符合质量要求的数据进行清洗。本文首先对所研究的数据质量问题、数据清洗的内容、基于网络的数据清洗技术都给出了明确的定义。本文希望搭建一个基于网络知识的数据清洗框架,它首先将本地的关系数据中的元组进行分类。将其中确定正确的元组数据进行抽样并放到WEB上交互,以基于互联网检索内容的模糊匹配为工具,获得其相应的文本模式知识。然后利用找到的模式知识,对本地数据中存在质量问题且适用于此技术的数据进行基于网络知识的清洗。本文中所提出的基于网络的数据清洗框架共分为三大部分,第一部分是数据质量问题的检测,第二部分是模式的获取部分,最后一部分是清洗部分。其中数据质量问题的检测部分直接与另外两部分交互。模式的获取部分又可分为关键字生成、模式的获取两个模块。清洗部分包含可行元组的选择、基于获取到的模式的元组清洗、使用其它策略的清洗三个模块。最后,大量的实验验证了算法整体及部分子算法的有效性和高效性。
其他文献
以文献分析法,从创新视角分析了在大数据背景下,欧盟开放数据战略的路线图,战略目标与保障框架。认为欧盟开放数据战略,是以构建开放、透明政府释放大数据的能量,以大数据为
定向免费医学生在职业认同上呈现出职业认知片面、职业情感矛盾、职业期望焦虑、职业价值观尚未确立等特点,导致部分学生专业思想不稳、学习动力不足、情绪消极焦虑、对未来
氯代硝基苯类物质(CNBs)作为一种重要的化工原料,存在于制药,染料,农药生产等工业废水中。其作为一种高风险,持久性有机污染物,在环境中难于被降解,已被EPA列入了优先控制的污染物
一般的文物保护和城市规划所涉及的文化遗产,特别是废墟,往往采用的是把它作为一种残存下来的标本予以保护或修复整新的办法。这样的保护,让文化遗产存留在隔断了当代的历史时空
目的探讨人性化护理在泌尿外科手术患者中的应用效果。方法选择我院2018年2月至2019年2月实施泌尿外科手术的患者100例为研究对象,将其随机等分为对照组和观察组,对照组实施
随着汽车、电子、金属加工、食品制药、薄膜制造等行业的发展,激光三角测头得到了广泛的应用,基于激光三角法的激光位移传感器具有结构简单、操作方便、测量速度快、精度高等特
多频带信号是当今通讯领域中的重要信号之一。不同的信号发射接收设备占据着互不干扰的频带范围,从而极大限度地利用带宽资源。多频带信号的高效获取与收发在通讯中扮演着至关
随着超精密加工技术的发展,人们对测量仪器的制造精度要求越来越高,尤其是高精度回转体部件,这就使得提高轴系的回转精度以满足极限状态下的零件加工要求和确保测量结果的准
从教育与政治的关系、教育的作用、教育目的、教育对象和教育内容等方面,对孔子和柏拉图的教育思想进行了比较,通过比较,我们发现,孔子和柏拉图的教育思想,既有很多惊人的相