基于历史查询的关系数据库关键词查询优化问题研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:chuanjie_zheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库(database,简称DB)已经广泛地应用到人们的生产和生活中,它可以高效的支持结构化数据的存储和查询,然而它需要用户了解数据库底层的模式知识和掌握结构化查询语言,这对于没有经验的用户来讲是一件困难的事情。另一方面,互联网信息检索技术却只要求用户输入关键词,网页就会为用户返回包含这些关键词的相关结果。这种搜索技术是通过关键词查询非结构化的数据,结果通常是不精确和不完整的。而结构化查询支持针对结构化数据的高效检索,并具备了完善的查询优化技术。因此基于关系数据库的关键词搜索领域应运而生。自从2002年开始,关系数据库中的关键词搜索问题已经逐渐成为信息检索领域的研究热点,以其结合了数据库高校检索与信息检索技术的操作简便的特征,因此,关系数据库的关键词搜索技术受到广大用户的欢迎。本文对关系数据库中的关键词搜索问题做了相关研究,对历次用户查询的历史信息进行了分析并加以利用,从而改善当前查询。本文主要研究成果及贡献如下:(1)对于当前查询,我们利用已有某个历史查询的结果,在这个结果基础上计算当前查询的结果。通过给出查询相似性定义,找到与当前查询最相似的某一历史查询,对该历史查询的结果进行重构形成满足当前查询的结果。一系列实验表明,利用历史信息的关键词查询效率比直接从底层数据库展开查询的效率更高,在数据量较小时,利用历史信息的关键词查询效率效果明显。(2)利用历史查询结果对当前查询进行推荐。通过将历史查询记录与历史查询结果建模成二分图,计算当前查询与历史查询的相似性,根据相似性大小,将与历史查询相连接的结果推荐给当前用户。这是一种模糊的推荐,推荐算法使推荐的结果尽最大可能的达到用户满意。就如同在电子商务的推荐系统中,根据以往该用户的消费记录给当前用户推荐商品,推荐出来的商品不保证当前用户一定会采纳,但是,这类商品一定是用户最感兴趣、最有可能采纳的商品。同理,利用历史查询的结果对当前查询进行推荐也是当前用户最感兴趣、最有可能采纳的结果。经过大量的实验,在众多的推荐结果中,用户的采纳率达到90%以上。(3)连接已有的几个历史查询的结果,使之成为满足当前查询条件的结果。这几个历史查询的查询词并集包含了当前查询的查询词集合。主要解决方法是将当前查询关键词集合拆分成两个或多个已经存在历史查询表中的历史查询,将这两个或多个历史查询的查询结果通过RC算法进行连接,形成当前查询的结果。本文通过改变不同的参数将RC算法与reconstruction算法进行了比较,总结了二者在不同情况下各自的优势。同时本文还对本文提出的KWSBH系统与现存的BANKS通过改变参数设置(例如关键词个数、数据集大小等)进行了多角度的比较,得出了KWSBH系统效率都要高于BANKS的结论。
其他文献
面向失衡数据集的分类问题是数据挖掘与机器学习领域中最具有挑战性的热点研究问题之一。近年来,随着计算机技术的发展和信息化的进步,越来越多的决策需要数据的支持。在大数据
计算机技术的快速发展,信息资源的大量共享以及网络资源的限制,在多媒体服务和数字通信等应用领域,图像压缩/编码成了信息通信传输至关重要的技术。分形图像压缩编码以其新颖
NFC是近年来兴起的高频短距离通信技术,它的发展已经蔓延到我们生活中的各个领域,NFC技术以其高安全性,高可靠性以及比起蓝牙,红外等通信技术来说的适用范围广的优点迅速获得
多核处理器任务调度主要研究如何通过一定的调度算法将任务分配到多个并行的计算内核上执行,使任务完成总时间得以缩短。这一问题早已被证明是NP完全的问题。各国学者们针对该
车辆信息平台的智能化发展,使传统孤立的车载信息系统逐渐向支持远程控制、车联网的车载终端方向过渡。车辆信息平台的智能化体现在它能够与智能手机、云计算平台等相互连通,将
虚拟桌面架构是虚拟桌面技术中使用的基础框架中的一种,允许用户通过终端登录到指定的系统中,将系统运行的结果通过网络传递到客户端进行显示,同时将用户在客户端的鼠标、键盘操
人类的虹膜具有唯一性、稳定性、非侵入性等特点,虹膜识别技术是众多生物特征识别技术中识别率最高的方法之一。随着虹膜识别技术的快速发展,目前研究重点主要关注非理想条件下
近年来,随着数字化技术的飞速发展,大量印刷蒙古文文献资源(图书、期刊、杂志等)可以通过采用当下广泛流行的技术——光学字符识别(Optical Character Recognition,OCR),将其转换为相应的电子文档,但在转换过程中会遇到以下两方面问题。第一,现有的印刷蒙古文OCR系统采用基于字元切分的方法对蒙古文单词进行识别,但某些字体下的蒙古文单词很难被准确切分成字元,导致单词无法识别。此
学位
路径规划研究是机器人技术的重要组成部分,是移动机器人实现自主移动的关键所在。蚁群算法,顾名思义即是模拟蚂蚁族群行为的算法。蚁群算法的诞生最早是由来自意大利的学者M.Do
近年来,物联网RFID技术飞速发展,越来越多的RFID应用需要一个能够全面评价RFID系统的安全检测体系作为保障和支撑。然而由于RFID在原始设计上的开放性及各种协议标准不统一的