基于深度学习的文档哈希

来源 :浙江大学 | 被引量 : 0次 | 上传用户:hathaway60000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对文档进行语义哈希是一种比较常见的加速相似性查找的方法。所谓语义哈希就是将文档进行哈希编码,并且使得在语义上相似的文档能够被映射到相近的哈希编码,即具有较短的海明距离。目前现存的大部分文本哈希算法,都是依赖于从显式的特征空间进行哈希编码,比如词计数向量和TF-IDF向量,没有很好的利用单词的顺序和文本的句法和语义信息,而文本中单词的顺序和句法对其语义理解是极其重要的。因此,本文提出了两种利用深度学习自动从底层词汇序列抽取隐含语义特征的优势来对文档学习有效的具备语义信息的哈希编码的算法框架:基于Doc2Vec模型的无监督文档哈希算法,以及基于深度神经网络的有监督文档哈希算法。  在基于Doc2Vec模型的无监督文档哈希算法框架中,首先借助于Doc2Vec模型对每一篇文档生成一个紧凑的向量表示。然后选择二进制化的拉普拉斯特征映射算法为所有文档寻找最佳的哈希编码;无监督的哈希算法逻辑简单、易于实现而且训练时间短,然而由于缺乏语义标签其哈希效果有限。于是本文又提出了另一种基于深度神经网络的有监督文档哈希算法。  在基于深度神经网络的有监督文档哈希算法框架的设计中,借助于深度学习中的卷积神经网络和循环神经网络,将文档映射成具有丰富语义信息的特征向量,在此基础上新添加一层隐含层作为哈希层来保存文档的潜在含义,进而生成了包含潜在语义特征的哈希编码。有监督的文档哈希算法将文档检索和分类任务结合起来,通过训练同一个模型,能够同时学习包含文档潜在语义的向量表示和哈希编码、以及文档分类器;  实验结果表明,本文提出的方法,尤其是基于深度神经网络的有监督文档哈希算法,在20-Newsgroup、Reuters-21578、OHSUMED三个数据集上都取得了比以往的哈希算法更有效的结果。
其他文献
由于车辆数量的快速增长,交通事故的频繁发生,人们对车辆安全的高度关注,智能交通系统(Intelligent Transportation System)的功能也越来越复杂,我们面临计算的数据更加复杂
重大工程动力灾变模拟系统模拟大型工程在强地震、强台风作用下的损伤破坏过程,待解决的问题都是大规模科学计算问题,需要使用多种专业的动力灾变模拟应用软件。用PC机求解这
随着网络技术和通信技术的飞速发展,互联网已成为人们生活中不可缺少的一部分。然而网络规模的不断扩大,使传统网络中出现了各种问题,如路由表急剧膨胀,无法满足特定应用和用
云计算利用虚拟化的技术将数据中心的各种硬件资源抽象成虚拟单元,进而将资源进行池化,来满足用户复杂动态的资源需求。云计算自诞生以来,以其低成本、高可靠性、高扩展性等
随着计算机技术的不断发展,互联网已经成为人们日常工作、生活中不可缺少的信息来源。而由于网络信息本身的特点,这些信息给用户的主要是定性的参考。特别在金融领域,一直以
随着网络数据通信的迅猛发展,尤其是Internet业务量呈爆炸性增长,对数据传输网带宽的需求越来越高。由于波分复用(Wavelength Division Multiplexing, WDM)技术能提供巨大传
凭借着高性能、低功耗的特点,多核处理器在嵌入式实时系统中的应用越来越广泛。然而,由多核实时系统造成的一个最大问题是人们无法对此系统的时间属性做出比较精确的预测。在
无线传感器网络是信息感知和采集的一场革命,在各个领域有着广泛的应用前景,将给人类的生活和生产带来极大的影响。虽然目前已有一些无线传感器网络应用的实例,但由于技术等
随着计算机和网络通信技术的快速发展,Internet已经成为人们生活中不可缺少的一部分。然而,不断扩大的网络规模和复杂的网络结构造成作为域间路由标准的BGP协议面临严重的性
基于P2P的分布式存储技术与传统的集中式存储技术相比,具有容量大,可扩展性好,负载均衡,成本低等优势,完全适应了信息社会的发展趋势,能够满足人们日益增长的存储需求。然而P