基于智能技术的Top-N关系查询处理和优化

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:yuye1580772
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库系统正在经历巨大的变化,智能技术已经引入到数据库系统的研究中。2004年在SIGMOD国际会议上,Jim Gray说:“我们正沿着一条有价值的链条从数据到信息到知识到智慧在慢慢地攀爬”。数据库研究的核心问题之一为查询处理和优化。近年来top-N查询倍受关注,成为国际上非常活跃的研究课题。top-N查询比传统查询的应用更广泛、更灵活、功能更强大,能够解决传统数据库管理系统(DBMS)无法处理的查询问题;其主要应用包括:数据挖掘、搜索引擎、决策支持系统、多媒体数据库、信息检索、Web智能和Web数据库等。 在查询的研究中,关键是对查询准确和快速地处理,因此需要研究查询处理的理论、方法、技术及优化策略。本文主要对top-N查询进行研究。top-N查询就是,对于用户指定的正整数N,如N=10,20或100,检索出N个元组使其最好地匹配查询条件,但不一定完全匹配查询条件;输出的结果集合按所用的距离函数排序。具体内容如下: 1.基于学习的top-N查询处理:本文运用基于学习的策略,给出top-N查询处理的一种新方法。其主旨为,在初始阶段,对于少数随机的top-N查询,找出其最佳搜索区域并将相关信息存储在一个知识库中;然后用知识库中的知识处理新提交的top-N查询;随着被处理的top-N查询的增加,原始知识库将被不断更新,因而能够更好地处理频繁提交的查询。另外,给出知识库的维护方法并且用时间序列的理论和方法讨论知识库的稳定性。最后,用大量的实验来验证基于学习策略的性能,且与其它方法进行比较。实验结果表明基于学习的方法不仅可以很好地处理低维数据,而且能够很好地处理高维数据,不惧怕“维数灾难”;与现有其它方法比较,其效率更有优势。 2.基于区域聚类的多top-N查询优化:在很多数据库应用中,存在同时处理多个提交的top-N查询的情形。通常,同时处理多个查询的开销比单个地逐一处理更有效。对于关系数据库,本文提出了同时处理多个top-N查询的一种新方法,其基本思想是区域聚类。区域聚类把各个top-N查询的搜索区域聚集成一些较大的区域并且从这些较大的区域检索元组。这种方法避免了多次访问同一区域并且减少了对底层数据库随机I/O访问次数。通过大量实验测试这种新策略的性能;实验结果表明对于低维(2,3和4维)和高维(25,50和104维)数据,这种方法明显优于逐一处理的朴素方法。另外,虽然区域聚类方法是为多top-N查询优化提出的,但可以直接运用于多区域查询优化;对此,本文也进行了研究,其性能也显著优于朴素方法。 3.Top-N查询流处理:在数据库系统及其应用中,另一个重要问题是处理在不同时间提交的top-N查询所形成的查询流。为此,改进了上述基于学习的策略并且结合区域聚类方法,同时运用缓存机制,对top-N查询流进行综合优化处理。这种方法使用知识库来存储一些过去查询的相关信息,聚类以往查询的搜索区域为较大的区域,进而从这些较大区域检索元组。为了回答一个新提交的查询,尽量从内存中已经检索的结果获取元组。这样,通过尽量减小搜索区域和避免访问底层数据库来寻求缩短响应时间。同时,这种方法保持查询高维数据的高效性。另外,给出知识库的维护策略。大量的实验用来验证此策略的性能,实验结果表明,无论是对低维数据还是高维数据,此方法的性能比朴素方法的性能明显提高。本文也探究了用类似方法处理区域查询流,实验表明其性能显著优于朴素方法。 4.基于语义距离的top-N查询处理:传统数据库搜索在查询和元组的比较过程中使用模式匹配。对于一个查询,只有当元组和查询完全匹配时,元组才被检索。本文研究具有语义的文本属性的top-N查询处理,通过定义新的语义距离函数,实现数据库搜索过程中词与词之间的语义匹配。目的是不仅返回与查询完全匹配的元组,而且与查询的语义距离靠近的元组也能被取出。实现方法的主旨是:基于WordNet创建索引将元组的词进行语义扩展;通过此索引来匹配查询词和元组的扩展词,运用一个简单的SOL选择语句于关系的自然连接检索出候选元组;然后,用语义距离对候选元组排序,最后输出top-N结果。大量的实验用于测量这种新策略的性能。 基于以上内容的研究结果,本文的主要贡献在于: 1.对于top-N查询处理,提出了基于学习的新方法,通过估计查询的局部分布密度,确定top-N查询的搜索区域;用时间序列的理论和方法,定义和分析知识库的稳定性。 2.提出了多top-N查询优化新问题,并且为了解决此问题,提出了区域聚类的新方法。区域聚类的对象为“n-维超矩形”,而通常聚类的对象是“点”。上述基于学习的和区域聚类的两种方法,不仅可以很好地处理低维数据,而且能够很好地处理高维数据,不怕维数灾难。 3.提出了top-N查询流处理新问题,为此,综合运用基于学习的方法、区域聚类的方法和缓存机制。就本文作者所知,到目前上述多top-N查询优化和top-N查询流处理这两个问题在国内外文献中未见其它相同报道。 4.定义由一些词汇组成的查询和元组之间新的语义距离函数,基于WordNet创建索引,实现关系数据库中查询的语义搜索,检索top-N结果。本文给出的方法,其时间效率优于通常基于本体的方法。
其他文献
信息社会中手机及其它无线设备越来越多地走进普通老百姓的工作和生活中。现阶段的手机平台上的输入方法主要分为人工编码键盘输入法和手写识别输入法,无论哪种方法对于汉字
分形的概念是1975年由IBM公司的曼德尔布罗特(B.B.Mandelbrot)定义并开始发展的,分形理论作为从复杂的现象本身直接研究到其内在所具有的规律,它可描述自然界复杂的现象。如
无线局域网(WLAN)是目前无线网络技术的研究热点之一。由于支持用户高效率、高质量、低成本的移动接入,因此得到了非常广泛的应用,但同时开放的无线传输带来了比有线网络更多
随着世界经济一体化进程的加快、大型跨国企业的进入使民族产业所面临的局势更加严峻。如何应对挑战,各级政府部门和许多市场意识敏锐的企业已经将物流作为提高市场竞争力以
XML正迅速取代HTML成为Web上信息表示、集成和交换的标准。与HTML相比,XML具有简单、自我描述的特点,并且实现了内容、结构和表现三者的分离,更适合于Internet上数据表示和交
随着网络技术和测试技术的发展,协议测试技术越来越受到人们的重视。协议测试是用来保证协议实现的正确性和有效性的重要手段。作为协议测试的一种形式,协议一致性测试用于测
本文是对本公司年产260kt电解铝生产项目所配套的整流所AC220kV高压供配电及DC350kA整流机组综合自动化技术的进一步研究和思考。首先对AC220kV/DC350kA高压供配电及整流机组
随着互联网的快速发展,网上的信息也成几何级数爆炸增长,同时用户对信息的需求也越来越高,他们希望搜索引擎提供最新的数据,最符合要求的信息。传统网络爬虫作为提供搜索引擎
在如今互联网时代,人们常常在社交网络上针对事与物表达个人观点看法。运用数据挖掘方法和文本情感分析技术对涌现的用户文本数据进行分析,可以发掘普通大众对热点话题以及产
网络计划技术是项目计划与控制的一种行之有效的管理工具,对于实际项目,施工网络计划中存在种种不确定因素和不可预见因素,对施工网络图的分析计算采用传统的网络计划技术存