论文部分内容阅读
随着互联网和移动互联网的发展,各大电商网站、支付平台、娱乐应用等积累的个人信息越来越丰富,同时数据量也在急剧增长。在复杂且庞大的数据中发现用户的兴趣偏好,从而给用户推荐更好的商品,增加用户粘性和用户体验度,对创造商业上的价值具有重大意义。在面对如此复杂且多领域的数据时,如何能够综合各个域的信息达到好的推荐是亟待解决的问题,跨域推荐应运而生。然而,跨域推荐有其自身的局限性,第一,域的增加虽然增加了可用数据的量,但对于单一用户而言,用户数据的数据稀疏性并没有得到解决;第二,跨域推荐需要面临语义的构建,单一域中仅有用户一物品这一种语义关系,而对于复杂的多域环境,不同域用户之间,不同物品之间等都存在关系,如何找出并平衡好这几种语义关系是跨域推荐面临的另一个难题。因此,大多数跨域推荐的研究都在寻找方案来解决数据稀疏性和语义缺乏问题。现有的推荐算法方案在一些特定的场景中确实取得了很好的推荐效果。大多数跨域推荐模型是基于传统的协同过滤方法,利用评分矩阵挖掘用户和物品的相关关系。在最近的研究方法中,一部分方法结合用户和物品自身的内容信息(比如,用户标签,用户年龄等特征;物品介绍,物品性质等特征),充分挖掘内容信息作为特征用以推荐;另一些方法是构建异质信息网络,通过图的结构去挖掘用户和物品之间潜在的语义关系,从而构建基于语义关系的特征向量来应对跨域推荐难题。以上两种方法各有不足之处,前一种忽略了图结构信息,后一种则忽视了内容信息。也有部分方法结合了内容信息和结构信息,比如知识图谱的方法,但是这部分方法并没有以用户为中心,仅仅关注物品本身的属性,忽略了用户的评论等信息,从而影响了推荐的效果。因此,本文为了解决以上问题,研究提出了 一种新的推荐模型——ECHCDR(Embedding content and heterogeneous network forcross-domainrecommendation),该模型以用户为中心融合内容信息(用户评论和物品属性)缓解了数据稀疏性,通过定义邻接矩阵和构建异质图增加了语义信息,获得了更好的跨域推荐效果。ECHCDR模型总共分为4步。第一,提取高分评论和物品标题文本特征。本文从用户角度出发,使用用户给出高分的评论数据和物品的标题作为我们融合的内容信息。特征的提取使用Doc2vec的方法以保留整个评论的特征和物品的标题特征,集中用户对应喜爱物品的标题、物品对应的高分评论则得到对应的内容向量。第二,根据用户在各个域之间的评分矩阵,构建了一个跨域的“评分矩阵”,我们称其为邻接矩阵。这个矩阵根据评分矩阵演化而来,矩阵行列索引均为各个域的用户和物品的集合,矩阵内部数字填充通过我们定义的规则决定,填充之后每一行或者列代表了其对应用户或者物品索引的邻接向量。第三,为了融合提取的内容信息和各个实体间的关系信息,我们构建了一个以用户、书籍和电影(以实验中采用的两个域为例)为结点,用户喜爱物品为边的异质信息网络。为了缓解稀疏性,增加语义信息,我们重用了之前构造的邻接矩阵,构造出用户-用户,物品-物品的边结构关系,同时赋予其权重以方便后续训练。第四,拼接前两步提取的内容向量和邻接向量作为第三步构造异质信息图的初始向量,为了更好的获得图的结点嵌入表示向量,我们使用对抗式学习方式GANs来训练得到每一个用户和物品最终的结点表示向量。用户和物品向量的乘积作为最终的得分,按分数从高到底排列得到给用户的推荐列表,进行跨域推荐。本文的贡献如下:1、本文提出了一个融合各种有效信息,在存在评分信息的单纯物品推荐的这一场景下跨域推荐的新方案——以用户为中心出发,融合了评论信息、标题信息、评分信息和图结构信息。对这几类信息的深度融合可以综合考虑两个域中的有用信息,让每种信息可以发挥应有的价值,相互促进加强推荐效果,挖掘更深层次的潜在特征。2、为了解决跨域推荐场景和信息融合过程中存在的数据稀疏和语义缺乏的问题,本文提出了基于内容信息和图结构信息深度融合的跨域推荐模型——ECHCDR。本文应用深度学习方法从评论信息、标题信息和评分信息中提取特征并进行了有效融合,缓解了数据的稀疏以及高维度带来的影响;为了更好的对构建的异质信息图进行嵌入表示,本文通过定义规则增加异质图中的用户间的边和物品间的边,从而丰富了语义信息;最后运用对抗的思想对异质信息图进行训练得到结点的嵌入表示。经过以上处理,ECHCDR模型大大缓解了上述问题带来的不足,对各类信息进行了有效融合。同时,本文扩展了生成式对抗网络的应用场景,将此方法应用于异质图的嵌入表示和跨域推荐领域。3、本文选取亚马逊的真实数据集验证ECHCDR模型的可行性。为了验证跨域的影响,本文将用户分为单域用户和跨域用户并分别检验跨域推荐对他们的影响。实验证明,ECHCDR模型在MAP和NDCG两个评价指标,以及AUC上均优于基准算法。