【摘 要】
:
高维索引作为模式识别、内容检索等领域的关键技术,其目的在于建立特征库的索引结构提高特征向量查询效率,但其在高维情况下存在的“维度灾难”问题一直困扰着高维特征向量查
论文部分内容阅读
高维索引作为模式识别、内容检索等领域的关键技术,其目的在于建立特征库的索引结构提高特征向量查询效率,但其在高维情况下存在的“维度灾难”问题一直困扰着高维特征向量查询的性能提升。自上世纪六七十年代起,研究人员提出了许多种类的高维索引解决方案,但迄今仍然没有出现一种在各方面性能都能令人满意的索引技术,相关领域对良好的高维索引技术的需求仍然迫切。本文受复杂网络中“六度分隔”现象的启发,设计了一种基于小世界模型的新型高维索引技术,并给出了相应的范围查询,近似k近邻查询和索引维护算法。该索引维护一定的邻居节点分布,包括近邻连接和远程连接,并将高维索引中向量查询的过程类比于图上邻居节点间的跳跃,通过逐跳地往目标方向逼近最终找到目标节点,因此该索引被命名为逐跳逼近索引。同时,通过对相关理论研究证明的总结,本文对该索引模型作了展开分析,说明了在简化模型上其查询平均路径长度的理论上界。最后,本文进一步提出了若干基于小世界模型的组合索引方案,并结合数据库系统将上述高维索引推向实际应用。具体而言,本文的详细工作包括:第一,本文参照小世界网络的理论研究成果,对项目组的逼近索引结构进行了多项改进:额外添加了一定比例的随机远程连接,以提供远程跳跃的捷径,进一步提高了索引查询性能;取消范围限制稳定各节点的度,以保证图在各种实际情况中的连通性,从而使得索引能够较好地处理数据分布不均和小库容量等实际应用中常见的查询场景。第二,本文进一步完善了逐跳逼近索引的范围查询和近似kNN查询算法以及索引维护算法,并将该索引应用于随机生成库及实际图像特征库。结合理论分析和实验数据,探讨了逐跳逼近索引的关键参数性质特点,以及应用到不同场景时的预期效果和注意事项。第三,最后,本文分析了逐跳逼近索引的优点和不足,结合目前已有的高维索引技术,给出了若干分层组合索引的算法。此外,为推动该索引更快的应用于实际系统,提出了结合数据库系统的逐跳逼近索引应用,借助成熟的数据库系统解决了算法分布式拓展和内存缓存管理等多个实际运用问题。相关理论分析表明,本文算法适合用于处理高维度及各种容量特征库的相似性查询,具有访问特征库记录条数少,查询准确性高等特点。实验结果表明,数据访问比例为10%以下且准确度为90%以上,同时随着库容量增大,访问比例降低而准确度基本不变。
其他文献
本论文通过分析调和函数的临界点和等势线,证明下面结论:在复平面C中,如果M2,2(D)被互不相交的非退化的连续统A,B(其中A=A1∪A2,B=B1∪B2)达到,那么存在A=A1∪A2,B=B1∪B2,使得
背景支原体肺炎(MPP)是肺炎支原体(MP)感染所致的肺部急性炎症。肺炎支原体是呼吸道感染的重要病原体,也是小儿肺炎中比较常见的感染病原体之一,可通过口、鼻分泌物在空气中传播,导致呼吸系统免疫系统损害。近年来,小儿支原体肺炎的发生率逐年升高,肺炎支原体感染就诊的儿童日益增加,除引起呼吸系统免疫损伤外,也可导致其他脏器损害,甚至会引起各种与小儿哮喘相关的肺外临床表现。儿童一旦感染支原体肺炎后,不仅影
杂种优势利用是提高作物产量的有效途径,质核互作雄性不育(Cytoplasmic-nuclear male sterility,CMS)在作物杂种优势利用中具有重要作用。尽管诸多学者对大豆质核互作雄性不
有限体积方法是一种适合于各种守恒问题(椭圆,抛物或双曲问题)数值模拟的离散方法.它在实际工作中如流体力学,热传导,石油工程等被人们所广泛的应用.它的主要思想如下:首先我
主要研究了无穷时滞二阶发展方程周期解和Holder连续解的最大正则性.利用Lp、Bp,qs和Fp,qs空间中的Marcinkiewicz型Fourier乘子定理和Holder空间中的算子值Fourier乘子定理,
过氧化氢酶可以催化过氧化氢分解产生水和氧气,过氧化氢酶在食品行业中已经得到普遍应用,如食品防腐、食品的消毒、无菌包装、还有对动物食品进行漂白和脱色等。但是现在商品化食品过氧化氢酶来源比较单一,主要是从动物肝脏中分离纯化、黑曲霉通风搅拌等条件下培养得到的。而且目前食品级过氧化氢酶的酶活力较低,热稳定较差,不能满足某些工业生产的需要。因此,本研究拟筛选具有高过氧化氢酶活性的菌株,对其过氧化氢酶基因进行
自上世纪八十年代啁啾放大技术出现以来,强场物理作为一门崭新的学科随着激光场强度的快速增长得到惊人的发展,涌现出许多全新的研究方向和研究内容,比如激光加速、强场和原
在科学技术快速发展的今天,量子信息学作为新兴的交叉学科已逐渐形成。作为量子信息学的一个重要分支-量子通信,特别是联合远程态制备吸引了很多研究者的关注,已在理论上和实
非线性分析及应用是数学学科中很重要的一个研究方向,它以自然科学中出现的非线性问题为背景,建立处理非线性问题的若干一般性理论和方法,它的研究成果可以广泛应用于各种非
激光诱导表面损伤研究已经有50多年了,其在工业、医疗、物理等领域有着广泛的运用。飞秒激光因其独特的超强、超快特点,在激光微加工领域发展迅猛。飞秒激光诱导表面纳米周期