数据集成中基于数据依赖的数据质量处理技术研究

被引量 : 1次 | 上传用户:yx_maomao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据是信息的载体,随着信息处理技术的不断发展,各个领域都积累了大量的数据,数据集成技术应运而生。为了更好的利用数据进行分析和决策,要求数据是可靠的、没有错误的,这就使得对数据质量的需求愈加迫切。本文对数据集成中的数据质量问题进行研究,提出了基于数据依赖的数据质量处理技术。首先,本文就数据质量的研究现状进行了详细的介绍,包括数据质量的定义、评估、分类、数据质量提高方法以及数据集成中的数据质量问题,针对数据集成中的数据质量问题的特点,本文研究了其中比较突出的两个方面的处理技术:数据一致性处理和数据唯一性处理。对于数据一致性,本文研究了基于条件依赖的处理技术。本文分析了现有一致性处理方法存在的不足,依照条件包含依赖定义了条件包含依赖的非一致性数据的语义假设,并且制定了相应地非一致性数据的修复规则。基于修复规则,结合已有的条件函数依赖修复算法,设计了利用条件依赖进行一致性处理的算法,更为有效地解决了数据源内部和数据源之间的数据不一致问题。对于数据唯一性,本文研究了基于复制依赖的处理技术。数据集成通常会导致很多相似重复记录,检测出这些记录并进行合并可以保证数据的唯一性,但目前关于相似重复记录的合并技术研究相对较少。针对现实世界中数据集成的数据源之间通常存在复制依赖关系的情况,本文通过获取数据源之间的复制依赖关系图,进而利用它确定数据最终的正确值,达到保证数据唯一性的目的。此外,还研究了唯一性处理算法的性能优化问题,给出了性能优化方法。最后,本文分别地对以上处理技术进行了全面的实验验证与分析。实验结果表明,本文提出的两种处理方法对于数据集成中数据质量的提高起到了显著的作用。
其他文献
随着经济和现代化城市的发展,尤其在大中城市,人们对交通工具的需求量明显增加,机动车数量急剧增长,不仅产生了一系列的交通问题,如交通拥挤、交通堵塞、交通事故等,而且出现
当前,大型旋转机械在工业生产中起到越来越重要的作用,复杂的工作环境和大负载、高转速的发展要求使得旋转机械经常出现各种故障,联轴器不对中故障是其中主要一种,一般将联轴
竖罐式余热回收是借鉴干法熄焦(CDQ)技术中的干熄炉工艺提出的一种烧结余热高效回收方式,其亟待解决的两个关键科学问题是罐体料层内气固传热问题与流动问题。其中,料层内气
随着中国“一带一路”建设的实施,对外农业投资企业数量和投资规模不断增加;与此同时,也越来越多的问题显现出来。我国对外农业投资面临企业自身规模、投资规模、东道国社会
在道路条件相同、交通环境相似的条件下,对于类型及性能完全相同的车辆,有的驾驶员的实际行车速度比该路段设计车速高,而有的驾驶员的实际行车速度却比该路段的设计车速低。
为验证施壮腐植酸水溶肥在黄瓜生产中的应用效果,采用田间小区比试验的方法,研究施壮腐植酸水溶肥对黄瓜生长发育及产量的影响。结果表明:施用施壮腐植酸水溶肥可使黄瓜增产44
<正>初春的天府之国,云日相辉映,空水共澄鲜。随着成都正在加快建设全面体现新发展理念的城市,引领和带动西部城市群高效发展,打造国家向西向南开放的战略前沿,天府新区作为"
从“十二五”规划来看,我国高速公路建设规模和投资仍处于迅猛增长状态,同时在项目建设中,“三超”和高估冒算等问题日益凸现。由于现阶段公路工程建设通常围绕承发包合同开展,而
在新形势下,我国科学技术发展水平逐渐提高,而电气自动化在科学技术的影响之下发展速度明显加快,为提高冶金管理水平,钢铁企业积极地引进电气自动化技术开展生产活动。本文主
没有充足的词汇量就不能够进行顺利的阅读、听力和写作,根据笔者对所使用的牛津英语教材进行的分析,每册分别设有四到五个module,module里又是由围绕一个话题展开的若干unit,