面向协同过滤集成的哈希学习方法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:zsj520yxq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络服务的迅速发展,推荐系统在帮助人们高效利用各种信息方面扮演着越来越重要的角色。协同过滤推荐是构建和实现推荐系统的重要技术手段之一,其主要根据用户对物品的历史评分记录完成个性化推荐。但是,与之前相比,如今网络服务中用户和物品数量与日俱增,进而导致效率问题日趋成为阻碍推荐系统进一步发展的技术瓶颈。目前,常见的方法就是在协同过滤推荐中利用哈希算法将用户和物品的特征表示转换为二值编码,据此就可以在海明空间进行快速高效的推荐。然而,现有的一些协同过滤哈希学习算法由于对连续向量空间的数据几何建模过于简化且采用“两阶段”学习模式,这种处理方式通常会产生很大的编码损失,使得此类方法不得不采用较长的编码位数弥补损失,而长编码又会造成额外的开销,这与先前采用哈希算法寻求便捷高效的推荐动机背道而驰。有鉴于此,本文针对如何在协同过滤推荐中学习高质量的二值编码展开了深入的分析和讨论,具体内容如下:(1)针对由于对原空间数据建模过于简化所导致的较大编码损失,本文提出了一个二值协同过滤集成算法,该算法通过在海明空间的矩阵分解模型的基础上加入了基于用户和物品的锚点近似平滑约束项,使原始连续向量空间数据的近邻结构能被更好地存储在海明空间的二值编码中。针对两阶段方法的弊端,本文提出了一个类离散优化方法,将量化阶段集成在优化过程中,尽可能地避免了优化过程中的编码损失。(2)针对仅使用历史评分数据的局限性,为了在二值编码中存储更多原空间中重要的信息,本文利用自动编码器对评分信息及边信息进行联合特征表示学习,用其辅助后续二值编码学习。(3)针对用户和物品特征表示的独特性,本文在二值协同过滤集成框架中融入了个体特征的平滑约束项,使得所学二值表示能够在保持结构特性的基础上不失自身的独特性。针对类离散优化的局限性,本文进一步提出了离散优化的解决方案,使得所提算法能够直接学习更短的二值编码,从根本上避免优化损失。通过在三个公开数据集上进行实验,证明了所提出的多种二值协同过滤集成方法较之于现有的协同过滤哈希算法能够得到质量更高的二值编码,与此同时还能进行更为高效、准确的个性化推荐。
其他文献
目的:通过对产前诊断的先天性胆总管囊肿患儿的临床资料分析,探讨产前诊断的先天性胆总管囊肿患儿的出生后诊断与手术时间选择。方法:选择2012年1月至2019年5月收治的82例产
目的:回顾性分析非体外循环冠脉旁路移植术后新发房颤的相关影响因素。选取有价值的预测因子,设计非体外循环冠脉旁路移植术后新发房颤的风险预测列线图。方法:选取2017-09至
本学位论文来源于国家重大科学仪器开发专项“高性能频谱分析仪研制与应用开发”中的应用开发任务(项目编号:2012YQ20022404)。根据课题来源,主要从IEEE 802.11ac接收信号解
模数转换器(Analog to Digital Converter,ADC)是用于将模拟形式的连续信号转换为数字形式的离散信号的一类设备,ADC广泛运用于通讯设备、医疗电子、数字示波器等领域。逐次
随着无线电子产品爆发式的增长,通信速率占用和能耗的问题越显突出。同时信息和能量传输的无线携能通信(SWIPT:Simultaneous Wireless Information and Power Transfer)技术成为新的研究热点。在当前的SWIPT研究中,主要是确定速率与能量之间的最优权衡关系,而如何确保同时提高能量传输效率和信号传输效率是无线携能通信技术亟待解决的问题。本文基于时间反演(
随着云计算、大数据、移动互联等新兴服务模式的普及与应用,互联网显现出了巨大的潜力,但同时也暴露出了其在扩展性、安全性、移动性以及服务质量等方面的弊端。以克服IP网络
背景冠心病三支病变及左主干病变自然预后差,血运重建是其主要治疗方式,目前国内尚无公认的冠心病血运重建指南和治疗策略的选择合理性评价标准。目的探讨冠脉钙化积分(coron
近年来,随着经济的迅猛发展和城市规模的高速扩增,社会治安形势愈加复杂。为了应对城市安防问题,全国有超过300个城市正在进行着智慧城市的建设。作为智慧城市的基础支持部分
目的:探讨沙参麦冬汤含药血清联合顺铂对人肺腺癌A549细胞增殖及对Smad3、Smad7、TGF-β1蛋白表达的影响。材料与方法:40只SD大鼠随机分为空白血清组、10%中剂量沙参麦冬汤含
云计算作为一种传统计算机技术和网络技术发展与结合的新模式,在过去的二十年中得到了快速的发展。虚拟化技术作为云计算的重要支撑技术,其可扩展性和灵活性使得云计算在资源