Top-k查询处理优化技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:w7622420
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎的出现,使用户能够在当今海量网页中准确定位并实时查看所需信息,其重要性日益凸显。目前大型搜索引擎拥有的网页数据已达PB级别并每日处理成千上万的查询请求,使得系统在查询处理过程中耗费大量时间和硬件资源。因此,近年来针对查询处理优化的相关研究得到了工业界和学术界的重点关注。Topk查询是搜索引擎领域广泛应用的技术之一,该算法从海量数据中返回最符合用户需求的前k个结果,在执行时能避免对大部分无关文档的打分处理。Top-k查询虽然极大提升了系统性能,但在索引结构、文档过滤策略和文档估分方式等方面仍存在问题。因此,本文将着重于搜索引擎的top-k查询处理技术的优化研究,具体内容描述如下:(1)在自索引结构的基础上,对多层自索引结构进行了分析与设计。此结构以定长元组为单位,使用迭代的方法提取数据段同步点形成上层自索引,实现了倒排索引的随机访问,能够有效支持当前两个经典的top-k查询处理算法MaxScore和WAND算法。实验证明,该结构大幅减少了解压数据块的数量,能明显提升查询处理的性能。同时,基于多层自索引结构实现了索引压缩与查询系统,该系统具有可扩展性,为后续top-k查询处理优化算法研究与验证奠定了基础。(2)针对top-k查询处理算法的慢启动问题,在对MaxScore和WAND算法原理分析的基础上,提出了基于阈值的快速启动top-k查询处理算法。优化后的算法首先提取倒排索引的静态top-k信息,再动态计算针对具体查询词项的初始阈值,避免了对大量弱相关文档的冗余处理。实验证明,该算法能够有效估算初始阈值,在保证安全性的条件下显著减少了进入结果堆的文档数量。(3)针对top-k查询处理过程中文档分数上限的计算问题,提出了基于线性规划的top-k查询处理优化算法。该算法将每个查询子集能够获得的最大分数视作目标函数,以查询词项之间限制条件作为约束条件,将上述问题抽象为求线性规划最优解的数学模型。实验结果表明,优化后的算法既保证了安全性,又能够有效降低候选文档的分数上限。
其他文献
基础教育对高考试题的研究热度一直较高,在新一轮课改的持续推进和学科核心素养提出的背景下,对既往高考试题的总结可以更好的发挥高考“指挥棒”的作用。本研究运用SOLO分类理论对历年全国Ⅲ卷地理试题进行了思维层次的划分,并通过对比分析得出了历年全国Ⅲ卷地理试题的SOLO层次结构特点和命题规律,在此基础之上提出了一些有益于地理课堂教学的建议。本研究共有六大部分:第一部分:绪论。主要介绍了选题背景、研究意义
德国工业4.0和美国再工业化的背景下,制造业企业逐渐从传统制造商向服务型制造企业转变,生产方式逐渐向数字化、网络化、智能化方向发展。在此过程中,信息服务企业为制造业企
Z型异质结拥有促进高能载流子分离、低能载流子的复合从而提高高能载流子参与光催化反应效率的特点,其结构影响光催化活性。本文设计并制备了一种用于光解水的Z型异质结器件,包括仅由CuO薄膜和CuCrO_2薄膜构成的直接Z型异质结,和在两种半导体薄膜之间修饰了纳米金中间层的固体介质Z型异质结;分析表征数据并绘制出能带图,进一步分析了器件模型的物理过程;在此基础上,研究了这些异质结的光催化析氢活性,并讨论和
社会需求量的增加促使机器人的工作场所和使用方式也在不断延拓,然而对于完成较为繁复的工作,单台的机器人已不是最优的实践方案。多台机器人协同工作通常能够完成单台机器人
近年来,遥感影像的空间分辨率不断提高,数据量急剧增加,丰富的地物信息更为城市规划、遥感制图、灾害监测等领域提供了海量数据。建筑物阴影在城市高分辨率遥感影像中普遍存在,阴影的存在会使影像局部区域丢失大量信息,影像质量降低,影响后续进一步应用的准确性。此外,阴影又是遥感影像重要的有用信息,可以利用阴影反演建筑物高度,有利于获取建筑物的位置信息及几何信息。传统的阴影提取方法主要是基于阴影光谱、几何、纹理
依据新课程理念,部编版初中历史教科书在编写理念、编排体例、课程内容等方面都有了新的展示。“课后活动”栏目作为课后习题,是教科书课文辅助系统的重要组成部分,与以往相比也有了新的特色,不光可以帮助学生理解与巩固课文内容、检验教学效果,还能激发学生的学习兴趣、培养学生的历史思维能力与综合能力等,为教师的教授和学生的学习提供了平台。本文以部编版初中历史教科书八年级上册为中心,在已有研究成果的基础之上,对“
经济的快速发展与科学技术的进步带动了家用电器和电子设备的迅速普及与广泛使用,伴随着产品一直的更新换代,电子废弃物数量的大幅增长,目前我国已成为世界第二大电子废弃物
当今社会,建筑与工业、交通并列为能源消耗的三大领域。中国作为建筑业大国,建筑能源消费总量约占全国能源消费总量的20.62%。因此,降低建筑能耗对缓解我国能源紧缺矛盾、改善人民生活环境质量、实现可持续发展战略目标有着重要作用。为实现降低建筑能耗的目标,研究人员探索了各种可行的研究方法。开展建筑的能源审计与能耗调研、能耗大数据分析为手段,利用调研信息与能耗大数据建立准确的建筑能耗预测模型,据此分析建筑
系统地阐述了腐植酸类加工原料和肥料的分类名称及概念,编制了腐植酸类肥料标准体系框架图。并说明了标准体系框架图的编制依据和内容。
当前我国城市化快速发展和乡村发展缓慢的现象并存,传统建筑的衰败和现代建筑发展过快造成了城乡建筑发展不平衡的局面,当代建筑在城市和乡村的建设都暴露出了很多的弊端。随着可持续地发展观念成为当下时代发展的主旋律,可持续的文化、生态和建筑间的相互协调成为当代建筑的主要发展方向之一,因此当代建筑发展需要目光更多地投向传统文化的继承与发扬上,在传承传统文化内涵的同时,对传统文化的表达形式进行创新与拓展。传统林