劣质数据库上查询优化关键技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yuyuan0127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据时代的发展,劣质数据越来越普遍存在于数据库中,严重影响了数据的质量,既降低了数据的价值又降低了数据管理系统的效率,这给数据管理带来了新的挑战.针对这个挑战,数据清洗和数据修复工作可以在一定程度上解决问题,但是两者都存在先天的缺陷,数据清洗通常不能完全清洗掉劣质数据而且存在误清洗有效数据的可能,数据修复要基于修复规则,而对于复杂的自然语言处理工作,这修复规则往往不好制定,导致数据修复工作结果的不完美,因此仅仅通过数据清洗和数据修复工作是不能够完全解决劣质数据问题。基于上面的考虑,经过长期的数据质量研究工作,基于实体的劣质数据管理系统应运而生,系统中可以通过实体识别技术对数据库中关系数据进行处理,整理成为实体数据,然后在实体数据基础上做查询等操作工作,鉴于该模型的特点,在选择或连接等查询操作执行过程中可能产生很多已经不满足最后质量要求的中间结果,如果在中间结果中将这些最终无用的结果滤掉的话可以增进查询效率,这是区别于关系数据模型的特性,本文通过分析实体数据模型的特点,将查询优化工作分为统计量的获取、查询代价估计模型的构建和查询计划选择算法三个主要部分,并对于三个部分分别对实体数据模型和关系数据模型进行对比分析,提出适用于实体数据模型的查询优化理论和技术方法,对于所做的查询代价估计工作和查询计划选择算法效率进行实验并对结果进行多角度的分析。
其他文献
由于森林火灾具有突发性和复杂性的特点,将计算机辅助技术应用于森林防火已成为必然的发展趋势。本文通过分析国内外对该课题的研究,提出了一种新的森林防火辅助指挥系统模型
随着计算机技术、网络技术和虚拟现实技术的不断发展,分布式虚拟环境(Distributed Virtual Environment,DVE)作为计算机科学的一个重要领域在理论和应用上都取得了重大的进步
近几年,统计中文分词已经成为学术界研究的主流并且在标注数据丰富的新闻领域取得了很好的性能。但是,在非新闻领域,特别是标注数据较少的领域,统计中文分词的性能仍旧差强人意。
基于我国医学图像远程诊断尚不发达的现状,本文设计并实现了一个可行的医学图像远程诊断系统以有效地解决医学图像远程诊断、医院现有信息系统整合和医学图像共享等问题。
Web服务是一种新型的Web应用程序,具有自包含、自描述、模块化和松耦合等特点,可以通过Web进行发布、查找和调用。简单地说,Web服务是“一次发布,到处可用”的新型Internet组
企业信息系统中普遍存在的“信息孤岛”严重地阻碍着企业信息化建设的整体进程,而传统的企业应用集成方案在实际应用中往往存在集成能力差、可扩展性差、互操作能力差、集成代
Ad HoG网络是由一组带有无线收发装置的移动终端组成的一个多跳的、临时的自治系统,是一种新型的无线通信网络。由于具有很大的灵活性,Ad Hoc网络能应用于传统的有线或无线网
近十几年来,随着科学技术的不断发展,人们产生和收集数据的能力迅速提高,因而数据规模急剧增加,仅仅依靠现有的技术是很难分析这些海量数据的,于是出现了“数据爆炸但知识贫
近些年随着国家对入侵检测系统投资的加大,入侵检测系统的深入研究得以广泛开展,学术界提出了很多种不同的入侵检测模型。由此,也直接导致了形形色色的商业入侵检测系统如雨后春
多目标决策的群体意见共识方法是解决复杂系统问题求解的有效方法,在工程实际中具有广泛的应用前景。本文运用运筹学、模糊数学、系统工程等相关理论与方法,研究了多目标决策的