论文部分内容阅读
【关键词】Embedding;冷启动;算法
个性化推荐算法主要包括召回算法和排序算法。通过召回算法,每个用户可以从完整的内容库(例如,数百万个视频内容)中选取数以千或百计可能感兴趣的候选内容,例如协同过滤(Collaborative Filtering[1])算法和FM算法(Factorization Machines[2])。排序算法对召回的候选内容进行排序,按照用户感兴趣的程度对内容进行排序,并展示给用户,例如逻辑回归(Logistic Regression[3])算法和DeepFM[4]算法。
通常针对有行为的用户,一般通过算法模型计算推荐结果。然而在互联网场景中,用户和内容都是在不断增长变化的,必定会频繁面对新内容和新用户,由于新用户没有行为或行为很少,难以通过算法模型为其推荐内容,一般为其推荐预圈选好的少部分优质内容,称之为用户冷启动。
由于用户兴趣的差异性,为新用户推荐最新最热等预圈选内容会使得推荐结果缺乏个性化,只能满足部分人的需求。即便是结合少量标签进行用户画像推荐,效果也不够理想,为新用户提供个性化推荐是急需解决的问题。
协同过滤召回算法适用于用户行为丰富的场景,例如为用户A推荐其相似用户B喜欢的内容,需要有足够的数据计算A和B的相似度。本文结合协同过滤算法、聚类算法和Embedding算法进行用户冷启动推荐。具体实现如下:
(一)用户聚类(分群)
本文使用深度学习卷积神经网络(CNN)算法从用户基础信息(性别、年龄和地区等)、昵称信息和头像信息提取特征,随后利用Kmeans[5]聚类算法对用户进行聚类,得到不同的用户群。
(二)用户群行为合并
由于单个新用户行为稀疏,难以直接使用协同过滤算法,因此可以将同一用户群的用户行为进行合并。在此基础上,由于不同用户到聚类中心点的距离不一样(可理解为用户属于不同类别的相似度不一样),因此不同用户的行为权重有所差别,不能直接合并。本文提出了一种加权行为合并方案,对用户群i,假设用户j到聚类中心点的距离为di,j用户群i中所有用户到中心点的最大距离为max(di),可定义用户j的行为权重为wi,j用户离聚类中心点越近权重越大,表示用户与该类的相似度越大,公式如下:
wi,j =1-di,j / max (di)
根据上式求得的权重,对同一用户群内的用户行为进行加权合并。假设用户对电影的原始评分只有0和1,用户群i(其中用户群i有n个用户)对电影k的得分是每个用户对电影k分数的加权求和,公式如下:
new_scorei,k = =1 wi,j * scorek
由于用户群中不同用户的行为都合并在一起了,使原本稀疏的矩阵变得稠密,因此合并后的用户群适合使用协同过滤算法。
(三)基于用户群进行协同过滤+embedding进行推荐通过上述的聚类和行为合并,得到用户群样本后,可以将一个用户群i看作一个用户,然后基于用户协同过滤计算用户群i的相似度,为用户群推荐最相似用户群的评分topK内容。假设经协同过滤得到“用户群1”最相似的用户群为“用户群99”,取“用户群99”评分最高且“用户群1”未看过的1000部电影作为“用户群1”的初步推荐结果。这是为用户群整体所做的推荐,难以通过上述权重计算公式拆分每个用户的评分,也不宜为用户群所有用户推荐一样的内容。
基于此,由于用户群维度有较为丰富的行为,针对该用户群进行DeepFM建模,得到各用户群embedding向量。通过Step1CNN提取的特征构造用户embedding向量。
最后计算用户embedding向量到候选内容embedding向量的距离(相似度),为每个内容推荐距离最近(最相似)的topN个内容,例如100个。
新用戶行为稀疏,难以通过模型为其推荐内容,通常通过年龄、性别、地区等用户画像的方式划分用户群进行分群推荐,缺少个性化。本文结合协同过滤、聚类和embedding提出了一种新的用户冷启动方法,可以有效地为不同用户推荐更丰富的内容,能更好地解决用户冷启动问题。
一、现有的个性化系统推荐方案
个性化推荐算法主要包括召回算法和排序算法。通过召回算法,每个用户可以从完整的内容库(例如,数百万个视频内容)中选取数以千或百计可能感兴趣的候选内容,例如协同过滤(Collaborative Filtering[1])算法和FM算法(Factorization Machines[2])。排序算法对召回的候选内容进行排序,按照用户感兴趣的程度对内容进行排序,并展示给用户,例如逻辑回归(Logistic Regression[3])算法和DeepFM[4]算法。
二、现有技术的缺点及需要解决的问题
通常针对有行为的用户,一般通过算法模型计算推荐结果。然而在互联网场景中,用户和内容都是在不断增长变化的,必定会频繁面对新内容和新用户,由于新用户没有行为或行为很少,难以通过算法模型为其推荐内容,一般为其推荐预圈选好的少部分优质内容,称之为用户冷启动。
由于用户兴趣的差异性,为新用户推荐最新最热等预圈选内容会使得推荐结果缺乏个性化,只能满足部分人的需求。即便是结合少量标签进行用户画像推荐,效果也不够理想,为新用户提供个性化推荐是急需解决的问题。
三、基于协同过滤的冷启动推荐算法
协同过滤召回算法适用于用户行为丰富的场景,例如为用户A推荐其相似用户B喜欢的内容,需要有足够的数据计算A和B的相似度。本文结合协同过滤算法、聚类算法和Embedding算法进行用户冷启动推荐。具体实现如下:
(一)用户聚类(分群)
本文使用深度学习卷积神经网络(CNN)算法从用户基础信息(性别、年龄和地区等)、昵称信息和头像信息提取特征,随后利用Kmeans[5]聚类算法对用户进行聚类,得到不同的用户群。
(二)用户群行为合并
由于单个新用户行为稀疏,难以直接使用协同过滤算法,因此可以将同一用户群的用户行为进行合并。在此基础上,由于不同用户到聚类中心点的距离不一样(可理解为用户属于不同类别的相似度不一样),因此不同用户的行为权重有所差别,不能直接合并。本文提出了一种加权行为合并方案,对用户群i,假设用户j到聚类中心点的距离为di,j用户群i中所有用户到中心点的最大距离为max(di),可定义用户j的行为权重为wi,j用户离聚类中心点越近权重越大,表示用户与该类的相似度越大,公式如下:
wi,j =1-di,j / max (di)
根据上式求得的权重,对同一用户群内的用户行为进行加权合并。假设用户对电影的原始评分只有0和1,用户群i(其中用户群i有n个用户)对电影k的得分是每个用户对电影k分数的加权求和,公式如下:
new_scorei,k = =1 wi,j * scorek
由于用户群中不同用户的行为都合并在一起了,使原本稀疏的矩阵变得稠密,因此合并后的用户群适合使用协同过滤算法。
(三)基于用户群进行协同过滤+embedding进行推荐通过上述的聚类和行为合并,得到用户群样本后,可以将一个用户群i看作一个用户,然后基于用户协同过滤计算用户群i的相似度,为用户群推荐最相似用户群的评分topK内容。假设经协同过滤得到“用户群1”最相似的用户群为“用户群99”,取“用户群99”评分最高且“用户群1”未看过的1000部电影作为“用户群1”的初步推荐结果。这是为用户群整体所做的推荐,难以通过上述权重计算公式拆分每个用户的评分,也不宜为用户群所有用户推荐一样的内容。
基于此,由于用户群维度有较为丰富的行为,针对该用户群进行DeepFM建模,得到各用户群embedding向量。通过Step1CNN提取的特征构造用户embedding向量。
最后计算用户embedding向量到候选内容embedding向量的距离(相似度),为每个内容推荐距离最近(最相似)的topN个内容,例如100个。
四、总结
新用戶行为稀疏,难以通过模型为其推荐内容,通常通过年龄、性别、地区等用户画像的方式划分用户群进行分群推荐,缺少个性化。本文结合协同过滤、聚类和embedding提出了一种新的用户冷启动方法,可以有效地为不同用户推荐更丰富的内容,能更好地解决用户冷启动问题。