海量数据近似top-k查询算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:joinroot
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息科技的飞速发展使得全球数据量爆炸增长,在海量数据中快速、有效地检索到目标数据的top-k查询方法是当前计算机研究的热点问题。在海量数据中,使用传统的top-k查询方法返回精确结果往往需要很长的响应时间。因此,以牺牲精度为代价来换取更快响应速度的近似top-k查询具有重要的研究意义。本文主要从确定性保证和概率性保证两方面对海量数据上的近似top-k查询算法展开研究。在具有确定性保证的近似top-k查询研究中,本文提出了基线算法BACG算法,基线算法在经典TA算法中加入近似因子?,放宽了阈值界限,使得返回的近似查询结果具有确定性保证。为了避免随机访问带来过大的时空开销,本文提出了基于有序列表的具有确定性保证的近似top-k查询算法AQCG算法,AQCG算法包括预处理、增长阶段和收缩阶段。在AQCG算法的增长阶段加入偏好扫描,使在扫描过程中能跳过属性列上的不必要元组,尽快收敛到阈值,进入收缩阶段。为了尽早结束查询过程,加入增长剪切和收缩剪切,剪切大部分元组,大大减少了I/O次数。通过实验验证,AQCG算法可以有效计算确定性近似top-k查询结果。在具有概率性保证的近似top-k查询研究中,本文提出了基于抽样的近似查询方法以及具有概率性保证的近似top-k查询算法TAPG算法。基于抽样的近似查询方法采用加权采样方法预计算构建数据梗概结构,根据数据的分布不断更新梗概结构来回答近似查询,通过对查询结果进行误差估计保证近似结果是符合用户的要求的近似top-k查询结果。TAPG算法在查询中加入概率阈值测试,减少查询过程中扫描的元组数,通过加入优先队列周期性的实现索引剪枝,剪切掉绝大多数最终可能出现在top-k查询结果中的概率非常小的元组,大大减少了I/O次数。结果表明,TPAG算法在概率保证和查询成本方面具有令人满意的性能。
其他文献
群体参照效应是指人们对自己所在的群体信息的记忆效果优于记忆其他群体的信息。每个人都会属于多个不同的群体,拥有不同的身份,个体所属的群体和相应的社会文化背景会对其产
近年来,得益于云计算的不断发展,安全外包计算作为云计算的重要应用之一,受到了学术界和工业界的广泛关注。安全外包计算中,云可以为资源受限的用户提供计算、存储等多方面的
传统的圆柱形覆膜锂电池圆周面破膜检测都是釆用人眼检测,人眼存在速度慢,易疲劳的弊端,很难适应高速电池生产线的检测要求。机器视觉是一项新型的工业自动化检测技术,可以与
随着移动互联网技术的发展和社交网络的兴起,网络已经成为人们获取和发布信息的主要方式,爆炸式增长的信息在给人们生活带来便利的同时,过载的信息也开始困扰人们的生活。为
混凝土材料广泛应用于建筑工程,桥梁工程等领域,随着建筑结构和建筑技术的发展,对混凝土材料破坏的控制要求越来越高,因此研究混凝土的断裂破坏机理对相关工程领域有重要意义
铝合金无缝气瓶内表面缺陷的检测是提高企业竞争力、改进生产工艺的关键环节之一。以往的气瓶缺陷检测方法主要是工人使用内窥镜进行多角度观察,不仅准确率低,还难以满足生产
含磷有机化合物在生物医药、农业、新型阻燃材料、有机合成及不对称催化等领域有着广泛的应用。其中,炔基膦化合物(含有spC-P键)因其具有独特的碳碳三键,通过一定反应条件可
水源水库作为地表水的主要存在形式,已成为重要的饮用水水源。水污染中以水体富营养化最为严重,其中氮素是导致水体富营养化的最关键因素之一。本文从李家河水库沉积物中筛选
随着人工智能技术的飞速发展,人机对话系统有望代替目前主流的输入设备,成为人们最常用的人机交互方式。对话生成是对话系统中最重要的环节之一,它是指计算机基于一定的对话
国际上与科学态度有关的研究始于上世纪60年代,而在我国,该领域的相关研究起步较晚,直到2001年新一轮的基础课程改革中提出情感态度价值观的教育目标后,科学态度这一名词才引