基于隐变量模型的监督式哈希算法

被引量 : 0次 | 上传用户:LOVER1122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术时代的来临,人们每天都在互联网上产生着海量的信息。如何对信息进行检索,从而在海量的信息中快速找到对自己有用的信息,就变得十分重要。基于这样的需求,搜索引擎在过去的十年间取得了巨大的成功,同时数据分析与挖掘技术也得到了广泛的关注。相似最近邻搜索是数据分析与挖掘领域的一个基本问题。为了能够在大数据集上高效地进行相似最近邻搜索,并且避免数据维数过高时所产生的一些问题,人们利用哈希算法将高维的特征向量转换为低维的二进制编码。随着近几年机器学习的广泛发展,人们开始尝试提出基于机器学习的哈希算法。在本文中,我们对现有的哈希算法做了系统的回顾和分析。在学习的过程中,我们发现了其中存在的一些问题和可以改进的地方。基于此,我们提出了一种全新的基于隐变量模型的监督式哈希算法。实验结果表明,我们的算法在准确率和时间花费上与现有的算法相比都有很大的改善。我们进一步利用基于哈希算法的k最近邻回归实现了一个针对FML网站的自动评审系统。该系统从网页中提取每个帖子的原始信息,利用自然语言处理工具对这些原始信息进行加工,并从中抽取出可以表示帖子内容的特征向量。基于采集到的训练数据,该系统能够自动地对网站上帖子内容的评分做预测,从而达到自动评审的目的。此外,在实验的过程中,我们设计搭建了一个通用的平台,可以十分方便地在其上添加各种哈希算法。该平台支持使用多种标准评价方法对算法的性能做对比。我们在这个实验平台上移植了目前已有的大部分算法,并实现了自己提出的全新算法,并通过大量的实验对它们的性能做了系统的比较。
其他文献
为探索盐胁迫对花生硝酸盐积累的影响,本研究测定了盐处理花生叶片的硝酸盐含量,发现盐胁迫抑制硝酸盐的积累。进一步对花生地下部和地上部样品进行RNA-seq分析,发现13个花生
随着市场经济发展速度的不断加快,现代企业在获得更大发展空间的同时,也不得不去迎接更多的挑战,这就在无形当中对现代企业的经营与管理水平提出了更高的要求。在当前的时代
以景观符号的形式和意义为依据,从采用传统形式,传统形式的再生,引用其它文化符号等三个方面阐述了如何对传统景观文化进行传承。
目的:探讨医护技一体化微信干预对急性冠状动脉综合征(ACS)行经皮冠状动脉介入治疗(PCI)后出院患者自我管理能力、服药依从性及预后的影响。方法:选取2017年1月-2018年2月笔
侗族以古老悠久、丰富多彩、寓意深刻的民族文化,创造出独特的侗族传统聚落空间,富有浓厚的地方民族特色,具有珍贵的学术研究价值。该文以国家级文物保护单位——芋头侗寨为
目前,在汽车制造业里,国内外各大汽车整车制造企业为了提升其供应链能力,在其整车生产制造及产品开发过程中以降低成本、提升品质、减少风险为出发目的,一般对其所需的零件采购都
目的探讨子宫内膜异位症(endometriosis,EM)患者术后复发的影响因素。方法回顾性分析2011年1月至2013年2月在德州市中医院门诊及住院确诊的139例EM患者的临床资料,通过随访观
余额宝诞生于互联网金融飞速发展的2013年,作为具有多重特点的创新型业务,发行仅半年间已大范围高效率吸纳庞大数额的资金。鉴于余额宝已对当下金融市场带来影响,且面临监管
在2008年中国实施宽松的货币政策的时机下,地方政府融资平台迅猛发展,在保持经济持续增长,缓解资金紧张挥发了特殊的作用,商业银行平台信贷"井喷"式增长。表面上是金融风险,
征收碳税是减少二氧化碳排放的一种最具有市场效率的经济措施。自1990年芬兰成为第一个对二氧化碳排放征收的国家,至今已有多国开征碳税,如瑞典、挪威、德国等。各国在征收碳