【摘 要】
:
最近邻检索是机器学习,数据挖掘,模式识别,计算机视觉等研究领域的基本问题。最近的研究表明,以局部敏感哈希算法为代表的哈希算法,可以有效地应用在大规模高维数据的最近邻
论文部分内容阅读
最近邻检索是机器学习,数据挖掘,模式识别,计算机视觉等研究领域的基本问题。最近的研究表明,以局部敏感哈希算法为代表的哈希算法,可以有效地应用在大规模高维数据的最近邻检索问题中。目前许多的哈希算法都是基于随机投影算法的,这些算法都需要产生很多的哈希表(在实际中就是长的二进制编码)才能获得不错的检索效果。而另一类基于学习的哈希算法在哈希编码较短时性能不错,但是当编码长度增长时,性能的提高并不明显。针对这些不足,本文提出了两种新的哈希算法,分别为密度敏感哈希算法和压缩哈希算法。(i)密度敏感哈希算法可以看成是局部敏感哈希算法的一个扩展。通过挖掘数据的内在几何结构,密度敏感哈希算法避免了像局部敏感哈希算法那样完全随机地产生投影,而是依据具体数据的分布产生最合理的投影向量,并且通过最大熵原则从候选投影中选取最后产生二值哈希编码的投影;(ii)压缩哈希算法是把稀疏编码技术和压缩感知方面的理论结合在一起的新的哈希算法。基于近似理论中的积分算子,该算法首先引入了一个稀疏编码的过程,得到所有高维数据向量的稀疏表达。然后,利用压缩感知理论中的受限等距性质这一关键理论保证,有效地把高维稀疏向量投影到低维空间中去。理论分析和实验结果都表明本文提出的哈希算法可以处理大规模高维数据的最近邻检索,并且在性能上比主流算法有了显著的提高。
其他文献
目的探讨成人不典型细菌性脑膜炎的临床表现、治疗和预后。方法回顾性分析我院16例成人细菌性脑膜炎患者的临床资料。结果16例患者中仅有1例患者出现了典型的脑膜炎三联征,所
论述甘蔗糖分对提高糖厂经济效益起到重要作用;分析甘蔗糖分与糖厂生产主要经济技术指标的关系;提出提高甘蔗含糖量和质量的措施.
自收自支事业单位,作为财政不进行款项拨付、依靠自身经营性职能,进行自主经营、自负盈亏的事业单位,自出现之初就与政府存在着割舍不清的内在联系。其在承担社会职责的同时
随着市场经济发展的日益完善,对财务能力有了更高的要求,更是因为经济环境的变化对它有着不同的要求,对财务能力提出了更高的要求。财务分析是股份公司财务活动中的主要内容,
提出一种基于Poisson过程的桥梁交通激励模型,建立了该激励模型的谱密度矩阵,并研究了这种激励模型的性质;基于随机振动理论和平稳随机过程理论,分析了这种激励模型作用下桥梁结
文章选取宁国市宁阳公园作为研究对象,运用IPA(Importance-Performance Analysis)方法,根据综合公园各环境要素重要程度与使用者满意情况,构建出环境要素重要度与满意度分布模
<正>跳绳作为我国传统民俗体育项目,有着悠久的历史。早在一千多年前就有了单人跳绳的记载,"好以两手持绳,拂地而却上"(《北齐书·幼主纪》)。多人跳绳较早的记载出自"二童子
以YAMAL项目为例,介绍了在大型天然气液化工厂设计中,工艺管道小分支管固定的方式和设计原则,并就设计中需要注意的事项进行了探讨,包括管道支架的工况、管道支架的位置、管
设计素描是随着现代设计教育的发展从绘画素描中脱胎而来,它的出现和发展是设计教育不断探索的结果。设计素描是艺术设计各专业方向的基础课程。随着艺术设计专业分类的精细