基于特征选择的局部敏感哈希位选择算法

来源 :大数据 | 被引量 : 0次 | 上传用户:wufala
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为主流的信息检索方法,局部敏感哈希往往需要生成较长的哈希码才能达到检索要求.然而,长哈希码需要消耗巨大的存储空间且携带大量的冗余哈希位.为了解决此问题,采用特征工程中10种简单高效的选择算法从长局部敏感哈希码中选择信息量丰富的哈希位,去除冗余、无效的哈希位.这10种选择算法使用不同的方式来刻画每一个哈希位的性能或两个哈希位之间的相关性,如方差、汉明距离等.通过去除长哈希码中性能较差或具有高相关性的哈希位进行哈希位的选择.将选择后的哈希码与原哈希码的性能进行比较.在4个常用数据集上的实验结果表明,去除冗余哈希位后的哈希码与原哈希码的性能几乎相同,且其哈希位的去除比率能达到30%~70%.
其他文献
一、立体图形rn现实生活中有许多几何体.你能说出下面这些几何体的名称吗?你能将它们分类吗?rn我们可以先将实物抽象成对应的立体图形.从图1到图5,它们依次是长方体、正方体、圆柱体、球、圆锥.在分类上,我们可以按柱体、锥体、球体来分,也可以按有无曲面来分.
期刊
December这个单词中的“Dec”在希腊文和拉丁文中的意思是“10”.大家还记得“十年”怎么说吗?没错,就是“decade”.这个单词也带有“dec”.同样的词还有十进制decimalism,十边形decagon.December 这个词就是从拉丁文Decem“十”演变而来的.December是“十二月”的意思,难道这个单词也跟数字“十”有某种联系?
期刊
在北京2022年冬奥会倒计时100天之际,北京冬奥会和冬残奥会制服装备正式亮相.在首钢园的发布仪式上,在被红色灯光点亮的工业遗址三高炉的映衬下,拥有霞光红、天霁蓝等冬奥色彩的冬奥制服格外亮眼.这些制服将是冬奥工作人员、技术官员和志愿者的专属身份标识,将在冬奥赛场形成一道流动的风景线,也将成为今冬流行穿搭的参照物.
期刊
“太难忘了!”rn此次太空之旅,夏特纳和另外3名乘客来到美国西德克萨斯沙漠的发射基地,坐上商业航天企业蓝色起源公司的全自动太空舱,顺利飞向太空.“新谢泼德”号火箭把太空舱送到距地面107千米的位置,超过卡门线(海拔100千米,地球大气层与外太空的公认分界线),随后搭载4名乘客的太空舱随降落伞返回地面.
期刊
女航天员需要克服更多困难rn由于载人航天活动具有任务艰巨、技能复杂、环境特殊、危险性大等特点,需克服失重、超重、缺氧、孤独、震动、噪声等一系列艰难险阻,所以对航天员的生理条件、心理素质要求很高,否则难以完成航天任务,女航天员也不例外.目前男女航天员的选拔、训练标准基本一样,没有专门针对女航天员的选拔和训练标准.只不过对参加航天员选拔的女性申请者比男航天员多了一项妇科检查,并在进行所有放射性检查之前检测妊娠,已怀孕的不能参加选拔.
期刊
一团、一按、一拨,不过几秒,面团上便出现人物的眉眼.在辽宁沈阳于氏面人制作技艺传承人于启全手里,短短十几分钟,一个活灵活现的面人就能制作完成.rn今年53岁的于启全8岁起就学习面塑.“最初只是做着玩,没想到越做越入迷.”于启全说.
期刊
很多年轻人结伴出去游玩或者就餐的时候,“AA制”是大家比较推崇的一种结账方式.“AA制”的意思是按人头平均分摊所需费用,在朋友聚会,一起出游等共同消费的场合中,“AA制”使用的频率很高.这个理念来源于西方,但是这个词却是我们中国人才会用的.“AA”这个词的起源,有人认为是“Algebraic Average”(代数平均,平均到单位人数上,分摊)的缩写.在香港,也有许多人认为“AA”是“All Apart”(全部分开)的缩写.那么问题来了,“AA制”用英语怎么说呢?
期刊
《宫娥》与《蒙娜丽莎》一样,同属于世界三大名画.论知名度,这幅画也许争不过“队友”《蒙娜丽莎》,但要论神秘感,绝对不相上下.因为几乎所有人一眼就能看出,《蒙娜丽莎》的主角是谁;而《宫娥》的主角,估计大多数人会认为是位于画面“C位”的小女孩,但其实这幅画里暗藏乾坤.
期刊
生理学或医学奖更贴近生活rn作为今年诺贝尔奖的首揭奖项,生理学或医学奖在10月4日揭晓之前,很多人都以为这一奖项会颁给mRNA新冠疫苗背后的科学家.然而,2021年的诺贝尔医学奖没有授予这一“热门”,而是给了两位发现人类如何感受身体疼痛和愉悦的美国科学家戴维·朱利叶斯和阿德姆·帕塔普蒂安.
期刊
材料辐照效应的数值模拟计算是认识核材料服役性能的重要手段,基于超级计算机的大规模、高保真材料数值模拟计算会产生海量数值计算数据,如何针对数值计算大数据的特点,在实现其高效存储的基础上,通过挖掘总结辐照损伤机理和性能演化规律,对于核材料设计研发、核安全等具有重要意义.论述了材料数值计算大数据的定义及其本质特征,综述了近年来的相关工作.以自主研发的材料辐照效应分子动力学软件MISA-MD和随机团簇动力学软件MISA-SCD在国产超级计算机上的实际算例为基础,提出了一种适用于材料数值计算大数据的、多尺度关联与耦