论文部分内容阅读
推荐系统通过对互联网应用中的用户、物品、上下文信息等对象进行建模,自动为用户推荐其可能感兴趣的物品,可缓解互联网时代的信息过载问题。由于推荐算法的输入特征是由多个对象的one-hot或multi-hot编码组成的,特征稀疏且维度高,因而进行特征交叉对于捕捉有用信息十分有效。同时,这些对象亦可用异构图进行表示,例如用户和物品之间的二分图、物品之间的关系图等,图结构可直观地体现对象之间的联系。本文围绕推荐系统中对象的这两种表示方法展开,充分利用特征交叉和图结构提升推荐算法的性能,具体成果如下:
1. 因子分解机(Factorization Machine,FM)将二阶特征交叉项的系数表示成特征对应的欧氏空间嵌入向量的内积,考虑到对象组成的异构网络具有层次结构和幂律分布的特性,而平坦的欧氏空间无法刻画这种特性,限制了 FM 的特征表示能力,为此提出了双曲因子分解机(Hyperbolic FM,HFM)。它将每维特征表示为双曲空间而非欧氏空间中的向量,并利用双曲距离度量评估特征间的交互强度。选择双曲空间是因为其被证明更适合树、图和词汇等具有层次结构的对象嵌入。本文分别设计了基于庞加莱球和基于双曲面两种双曲空间模型的HFM,并导出了对应的黎曼梯度下降优化算法。在多个数据集上的实验结果表明,HFM在等量参数的情形下,获得了比FM更优的性能,同时揭示出了在FM中欠缺的特征间的层次关系,使之具有部分可解释性。
2. FM及利用深度神经网络构建特征交叉的模型通常孤立地对待每个用户-物品交互样本,无法显式地利用样本中对象之间的隐含关系,导致学到的特征嵌入未必是最优的,样本孤立带来的信息孤岛问题导致冷门或冷启动物品无法获得精准的推荐,因此,提出结合图表示学习和特征交叉的图卷积交叉网络(Graph Convolutional Cross Network,GraphCross)。GraphCross分为两个部分:图卷积部分利用不同训练样本中对象的关联性构建异构图,并在此基础之上进行图卷积运算,使得生成的对象嵌入囊括其紧密相关的邻域节点对象的信息,破除样本之间的孤立性;特征交叉部分是一个FM模型,利用图卷积网络生成的对象嵌入捕捉有意义的特征交叉。GraphCross亦可推广为基于图表示学习-特征交叉的推荐算法框架。实验结果表明,利用图结构可有效提升推荐系统性能,尤其是针对冷门物品的推荐。
1. 因子分解机(Factorization Machine,FM)将二阶特征交叉项的系数表示成特征对应的欧氏空间嵌入向量的内积,考虑到对象组成的异构网络具有层次结构和幂律分布的特性,而平坦的欧氏空间无法刻画这种特性,限制了 FM 的特征表示能力,为此提出了双曲因子分解机(Hyperbolic FM,HFM)。它将每维特征表示为双曲空间而非欧氏空间中的向量,并利用双曲距离度量评估特征间的交互强度。选择双曲空间是因为其被证明更适合树、图和词汇等具有层次结构的对象嵌入。本文分别设计了基于庞加莱球和基于双曲面两种双曲空间模型的HFM,并导出了对应的黎曼梯度下降优化算法。在多个数据集上的实验结果表明,HFM在等量参数的情形下,获得了比FM更优的性能,同时揭示出了在FM中欠缺的特征间的层次关系,使之具有部分可解释性。
2. FM及利用深度神经网络构建特征交叉的模型通常孤立地对待每个用户-物品交互样本,无法显式地利用样本中对象之间的隐含关系,导致学到的特征嵌入未必是最优的,样本孤立带来的信息孤岛问题导致冷门或冷启动物品无法获得精准的推荐,因此,提出结合图表示学习和特征交叉的图卷积交叉网络(Graph Convolutional Cross Network,GraphCross)。GraphCross分为两个部分:图卷积部分利用不同训练样本中对象的关联性构建异构图,并在此基础之上进行图卷积运算,使得生成的对象嵌入囊括其紧密相关的邻域节点对象的信息,破除样本之间的孤立性;特征交叉部分是一个FM模型,利用图卷积网络生成的对象嵌入捕捉有意义的特征交叉。GraphCross亦可推广为基于图表示学习-特征交叉的推荐算法框架。实验结果表明,利用图结构可有效提升推荐系统性能,尤其是针对冷门物品的推荐。