论文部分内容阅读
随着数据时代的发展,劣质数据越来越普遍存在于数据库中,严重影响了数据的质量,既降低了数据的价值又降低了数据管理系统的效率,这给数据管理带来了新的挑战.针对这个挑战,数据清洗和数据修复工作可以在一定程度上解决问题,但是两者都存在先天的缺陷,数据清洗通常不能完全清洗掉劣质数据而且存在误清洗有效数据的可能,数据修复要基于修复规则,而对于复杂的自然语言处理工作,这修复规则往往不好制定,导致数据修复工作结果的不完美,因此仅仅通过数据清洗和数据修复工作是不能够完全解决劣质数据问题。基于上面的考虑,经过长期的数据质量研究工作,基于实体的劣质数据管理系统应运而生,系统中可以通过实体识别技术对数据库中关系数据进行处理,整理成为实体数据,然后在实体数据基础上做查询等操作工作,鉴于该模型的特点,在选择或连接等查询操作执行过程中可能产生很多已经不满足最后质量要求的中间结果,如果在中间结果中将这些最终无用的结果滤掉的话可以增进查询效率,这是区别于关系数据模型的特性,本文通过分析实体数据模型的特点,将查询优化工作分为统计量的获取、查询代价估计模型的构建和查询计划选择算法三个主要部分,并对于三个部分分别对实体数据模型和关系数据模型进行对比分析,提出适用于实体数据模型的查询优化理论和技术方法,对于所做的查询代价估计工作和查询计划选择算法效率进行实验并对结果进行多角度的分析。