基于最大熵的异构数据哈希方法

来源 :第31届中国数据库学术会议 | 被引量 : 0次 | 上传用户:quake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近基于哈希的近邻检索得到了广泛关注,基于哈希的检索首先将原始数据快速映射成一个固定长度的0-1串,然后用这个0-1串进行检索,大大提高了检索速度.以往的工作大多是基于同质数据之间的检索,比如用文字搜索文字,但是互联网上的数据是多种类型的,即异构的,比如图片、文字、视频等,因而在异构数据上进行检索也是一个很迫切的需求.基于哈希的异构数据上的检索,重点在于如何将异构数据哈希才能有利于检索,采用同质数据哈希的思路,如果同类数据中的2个样本相似,它们的哈希值应该相近,不同类的2个样本如果是同一实体的两种不同形式,那么它们的哈希值应该相近.有一些前人的工作研究的是基于哈希的异构数据上的检索,但是他们的工作仅仅是保证原始样本的相似度在哈希值上的体现,这个保证是基于提高哈希结果的召回率,使检索到的结果,即哈希值相近的样本尽可能在原始空间上相似,而没有对召回样本的准确率进行考虑,在检索问题中如果召回的样本太多,即使正例全部返回也是无意义的.提出了一种新方法MEHASH,在保证哈希结果召回率的同时,即相似度保证,通过最大化哈希结果的熵,使哈希结果尽可能随机,减少召回样本数量,间接提高了准确率.该方法可以有效地在准确率和召回率之间达到平衡,为了验证MEHASH算法的有效性,利用2个公开的数据集,即wiki和NUS WIDE进行了实验,实验表明,算法的mAP指标要优于前人提出的方法.
其他文献
提出了基于免疫危险理论的物联网感知层危险信号感知与响应模型(DSPRM-IPP)及相关算法.DSPRM-IPP模型包含免疫耐受模块、危险感知与累积模块及响应模块.免疫耐受模块在感知层
中华人民共和国第一届职业技能大赛于2020年12月13日在广州圆满落幕,来自全国各地36个代表团,共计2557名选手参与86个赛项的激烈争夺.本次大赛是新中国成立以来规格最高、项
梁绍基的作品以生命为要核,以生物为媒介,并以与自然互动而著称。他以生蚕丝来隐喻人类生命的作茧自缚;他静坐于乡野山巅,顿悟镜中云幻,以此来化解浮华世间的骚动不安。 Lia
以ARM7为开发平台,结合激光对射电传感技术和绝对值编码器技术,设计了一种焦炉机车地址检测器.利用激光对射管扫描码牌获取炉号和绝对地址,由绝对值编码器得到偏移地址,主控
竹筏:取数根新鲜竹梢,根据所需竹筏大小剪四五段长短一样的竹节,竹节两端在酒精灯上微微烘热,稍弯成微翘,然后用不亲水的快干胶水将竹节并排粘成船状即可。在船体底部粘一块
从陆家嘴地铁站一号口出站步行三分钟,或是从东昌路轮渡码头下船步行十分钟,旁边是东方明珠,金茂大厦,环球金融中心,从商场的大玻璃窗望出去可以看到无敌的浦江夜景,这就是正大广场。得天独厚的地理位置,几乎不可能再有被复制的可能——这似乎是浦东许多投资项目普遍的特点:没有前车之鉴,只有独一无二。  我们已经习惯在寸土寸金的陆家嘴有这样一处不见天日便可购物、吃饭、跳舞、看电影、打电动,甚至玩溜冰的极乐世界,
文章对云南省咖啡供应链的问题进行分析,发现在咖啡产业中,本土咖啡企业经营活动依然以销售咖啡原料为主,往往处于附加值较低的底端,阻碍其发展的主要原因在于咖啡供应链的组
功耗攻击是密码芯片一种新的密钥破解方法,它对密码芯片的安全造成了较大威胁.对密码芯片运行时中间变量的功耗信息泄漏,从系统层次提出了五级功耗信息泄漏模型,在此基础上,
会议
交通运输部“十三五”期间重点加快城乡交通运输一体化发展,目的是要推动交通运输体系的新发展,改善发展环境,提升公共服务水平.因此,要想实现交通运输业的全面发展,相关部门
油画在中国传播发展已有一百多年的历史了,我们在为油画所体现的艺术性和精神文化内涵所倾倒的时候,我们往往忽视了的社会功能。油画的社会功能主要有以下几个方面:反映社会