基于Top-k高维检索算法的海量数据存储及调度方法研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:colinwangaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究将top-k查询算法应用于高维海量数据时算法的优化及与之相适应的数据的存储和调度方法。Top-k查询算法根据给定的评分函数对海量数据集中的记录进行计算,返回总分最高的k个记录作为查询的最后结果。根据对查询结果精确程度的要求,top-k查询算法可以分为精确的top-k查询算法和近似的top-k查询算法。由于在很多时候并不需要对所有记录进行计算就可以得到查询的结果,所以具有较高的查询效率。论文首先对目前已有的海量数据查询优化技术进行了介绍和分析,接着重点介绍了top-k系列查询算法。在实现精确的top-k查询算法的TA算法和基于支配图的top-k查询算法DG(Dominant Graph Algorithm),以及近似的top-k查询算法的TA算法和TABE算法,并分析这些算法的利弊的基础上,本文提出了基于内存的FTDT(Fast Threshold Decline Top-k Algorithm)算法,FTDT算法通过减少门限值的更新次数和比较次数来提高查询效率。实验证明,当维数m>5时,FTDT算法与TA算法相比,查询效率显著改善。其次,本文分析了基于支配图的top-k查询算法,对其分层策略、数据的存储结构及调度思想进行了深入研究,提出了一种新的精确top-k查询方法—NSDL(Non Strict Dominant Layers)算法。NSDL算法采用“似最大层”的概念来对数据集进行分层,对每层记录进行有效的组织,并采用“辅助表”AT (Auxiliary Table)进行I/O调度优化,从而达到减少I/O的调度次数,提高top-k的查询效率的目的。NSDL算法在对第一层数据进行查询时使用了FTDT算法。最后,论文将NSDL算法扩展为近似的top-k查询算法——ANSDL(Approximated Non Strict Dominant Layers)算法。实验表明,NSDL较之DG显著降低了I/O开销,而ANSDL在未明显降低查询精度的情况下,与NSDL相比进一步提高了查询效率。
其他文献
智能视频监控系统是计算机视觉研究领域的一个重要课题,而运动对象检测则是智能监控系统的核心技术。运动对象检测的研究对象是视频图像序列,其目的是判断视频序列中是否存在
人工智能近年来受到越来越多的关注,并成为今年全国两会的热门话题。机器博弈的研究为人工智能提供了很多方法和理论,如博弈搜索等。机器博弈又分为完全信息博弈和不完全信息
随着数字视频技术的不断发展和广泛应用,传统的以二维图像为基础的视频画面已越来越难满足使用者的需求。因此人们更多的将研究重点转向了多视点、自由视点和三维等多种立体
ESP问题,即Euclidean最短路径问题,是计算几何中一个比较典型的问题。该问题的基本描述为:在欧式空间中,给定源点、目标点以及一系列障碍物,希望求出从源点出发经过这些障碍物
在油田事故灾难救援中,涉及到的救援资源种类多,参加救援的救援点也比较多且分布离散无规律,对于一次事故救援过程来说,合理高效的选择救援资源,对参与救援的救援点进行合理
模型驱动软件开发(MDSD)关注的焦点是模型驱动架构(MDA)在软件工程中的运用。MDSD的主要目标是提高软件开发效率,并通过提高模型的抽象层次来提高软件复杂度的易处理性。随着建模
互联网时代,网络已成为最大的信息聚集地。特别是因特网的快速发展,信息及电子文本数目迅速增加。据统计,互联网中80%的数据是以非结构化的形式存在的,如Web页面、电子邮件、
现实生活的不同领域中存在着形形色色的复杂网络,在复杂网络理论体系中,搜索问题一直是重要的研究课题之一,并且有着大量的实际应用。很多实际网络中的搜索,例如万维网中网页
随着我国医疗与经济水平的进一步提高,我国医疗保险覆盖面已非常广,老百姓享受到了医保政策带来的真切好处。与之相对的,医保基金滥用的情况也有愈演愈烈的趋势,越来越多的基金被套取,打击非法欺诈行为势在必行。目前,医保经办机构主要利用规则系统对结算信息进行审核,规则依赖于少数指标,由于规则的不完善性与更新的滞后性使得相对不变的规则很容易被精心伪造的数据欺骗,利用计算机技术辅助审查迫在眉睫。本文分析医保数据
随着科技的高速发展,智能手机已成为人们必不可少的生活用品。Android系统由于平台的开放性获得了很多开发者和厂商的支持,Android应用的范围不断扩大。随着应用和用户不断增