基于内容和图结构信息融合的跨域推荐问题研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:rsilent
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和移动互联网的发展,各大电商网站、支付平台、娱乐应用等积累的个人信息越来越丰富,同时数据量也在急剧增长。在复杂且庞大的数据中发现用户的兴趣偏好,从而给用户推荐更好的商品,增加用户粘性和用户体验度,对创造商业上的价值具有重大意义。在面对如此复杂且多领域的数据时,如何能够综合各个域的信息达到好的推荐是亟待解决的问题,跨域推荐应运而生。然而,跨域推荐有其自身的局限性,第一,域的增加虽然增加了可用数据的量,但对于单一用户而言,用户数据的数据稀疏性并没有得到解决;第二,跨域推荐需要面临语义的构建,单一域中仅有用户一物品这一种语义关系,而对于复杂的多域环境,不同域用户之间,不同物品之间等都存在关系,如何找出并平衡好这几种语义关系是跨域推荐面临的另一个难题。因此,大多数跨域推荐的研究都在寻找方案来解决数据稀疏性和语义缺乏问题。现有的推荐算法方案在一些特定的场景中确实取得了很好的推荐效果。大多数跨域推荐模型是基于传统的协同过滤方法,利用评分矩阵挖掘用户和物品的相关关系。在最近的研究方法中,一部分方法结合用户和物品自身的内容信息(比如,用户标签,用户年龄等特征;物品介绍,物品性质等特征),充分挖掘内容信息作为特征用以推荐;另一些方法是构建异质信息网络,通过图的结构去挖掘用户和物品之间潜在的语义关系,从而构建基于语义关系的特征向量来应对跨域推荐难题。以上两种方法各有不足之处,前一种忽略了图结构信息,后一种则忽视了内容信息。也有部分方法结合了内容信息和结构信息,比如知识图谱的方法,但是这部分方法并没有以用户为中心,仅仅关注物品本身的属性,忽略了用户的评论等信息,从而影响了推荐的效果。因此,本文为了解决以上问题,研究提出了 一种新的推荐模型——ECHCDR(Embedding content and heterogeneous network forcross-domainrecommendation),该模型以用户为中心融合内容信息(用户评论和物品属性)缓解了数据稀疏性,通过定义邻接矩阵和构建异质图增加了语义信息,获得了更好的跨域推荐效果。ECHCDR模型总共分为4步。第一,提取高分评论和物品标题文本特征。本文从用户角度出发,使用用户给出高分的评论数据和物品的标题作为我们融合的内容信息。特征的提取使用Doc2vec的方法以保留整个评论的特征和物品的标题特征,集中用户对应喜爱物品的标题、物品对应的高分评论则得到对应的内容向量。第二,根据用户在各个域之间的评分矩阵,构建了一个跨域的“评分矩阵”,我们称其为邻接矩阵。这个矩阵根据评分矩阵演化而来,矩阵行列索引均为各个域的用户和物品的集合,矩阵内部数字填充通过我们定义的规则决定,填充之后每一行或者列代表了其对应用户或者物品索引的邻接向量。第三,为了融合提取的内容信息和各个实体间的关系信息,我们构建了一个以用户、书籍和电影(以实验中采用的两个域为例)为结点,用户喜爱物品为边的异质信息网络。为了缓解稀疏性,增加语义信息,我们重用了之前构造的邻接矩阵,构造出用户-用户,物品-物品的边结构关系,同时赋予其权重以方便后续训练。第四,拼接前两步提取的内容向量和邻接向量作为第三步构造异质信息图的初始向量,为了更好的获得图的结点嵌入表示向量,我们使用对抗式学习方式GANs来训练得到每一个用户和物品最终的结点表示向量。用户和物品向量的乘积作为最终的得分,按分数从高到底排列得到给用户的推荐列表,进行跨域推荐。本文的贡献如下:1、本文提出了一个融合各种有效信息,在存在评分信息的单纯物品推荐的这一场景下跨域推荐的新方案——以用户为中心出发,融合了评论信息、标题信息、评分信息和图结构信息。对这几类信息的深度融合可以综合考虑两个域中的有用信息,让每种信息可以发挥应有的价值,相互促进加强推荐效果,挖掘更深层次的潜在特征。2、为了解决跨域推荐场景和信息融合过程中存在的数据稀疏和语义缺乏的问题,本文提出了基于内容信息和图结构信息深度融合的跨域推荐模型——ECHCDR。本文应用深度学习方法从评论信息、标题信息和评分信息中提取特征并进行了有效融合,缓解了数据的稀疏以及高维度带来的影响;为了更好的对构建的异质信息图进行嵌入表示,本文通过定义规则增加异质图中的用户间的边和物品间的边,从而丰富了语义信息;最后运用对抗的思想对异质信息图进行训练得到结点的嵌入表示。经过以上处理,ECHCDR模型大大缓解了上述问题带来的不足,对各类信息进行了有效融合。同时,本文扩展了生成式对抗网络的应用场景,将此方法应用于异质图的嵌入表示和跨域推荐领域。3、本文选取亚马逊的真实数据集验证ECHCDR模型的可行性。为了验证跨域的影响,本文将用户分为单域用户和跨域用户并分别检验跨域推荐对他们的影响。实验证明,ECHCDR模型在MAP和NDCG两个评价指标,以及AUC上均优于基准算法。
其他文献
<正> 一、概述心律失常是临床上常见征候之一,通常发生在各种类型的心血管疾病的基础上,也可发生于内分泌失调、电解质紊乱、药物中毒(特别是洋地黄类药物中毒)及在麻醉或手
浙江可以称得上是“中国城市化发展的旗舰”。因为在全国第一个提出“实施城市化战略”和“走新型城市化道路”的省份,都是浙江。笔者作为一位长期在浙江省发展和改革委员会
综合测试与故障诊断是贯穿军工产品全寿命周期的核心技术之一,也是国防基础科研试验与测试领域的研究重点之一;在总结综合测试与故障诊断技术已经取得的研究成果和存在问题的
地膜穴播是陇西黄芩育苗的主要方法,为了确定适合陇西黄芩育苗的最佳播期和播种量,设置4个播期(4月3号、4月18日、5月3日和5月18日)和5个播量(6.80、8.26、9.72、11.18、 12.
目的 :探讨内服中药配合理疗治疗乳腺增生的效果。方法 :选择 312例确诊为乳腺增生患者 ,采用内服中药配合理疗综合治疗。结果 :本组病例临床症状和体征均有改善 ,治愈率 90
目的了解血糖、血脂在成年人不同年龄段的变化特点。方法对6 614例不同年龄段体检者的空腹血糖(GLU)、总胆固醇(TC)、甘油三酯(TG)的检测结果进行比较分析。结果血糖、血脂异
声乐演唱与钢琴伴奏是人声与琴声的有机结合,也是歌唱者和演奏者的密切配合,尤其是钢琴伴奏的双重身份,在一定程度上制约着歌唱者的歌唱。钢琴伴奏不仅需要熟悉声乐演唱艺术
目前人们对俗语翻译的研究多是基于文化或具体翻译方法进行的,论文是在赵彦春、李寅和罗选民提出的关联翻译模式下分析俗语原文与译文关联层次对应性问题,介时发现在对俗语选
目的 :观察、比较几种临床常用药物对小儿上呼吸道感染的疗效。方法 :选择我院儿科上呼吸道感染病例 179例 ,随机分为鱼腥草注射液治疗、病毒唑治疗和双黄连等其他药物治疗 3