基于协同过滤和Embedding的冷启动推荐算法研究

来源 :消费电子 | 被引量 : 0次 | 上传用户:ktzgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【关键词】Embedding;冷启动;算法

一、现有的个性化系统推荐方案


  个性化推荐算法主要包括召回算法和排序算法。通过召回算法,每个用户可以从完整的内容库(例如,数百万个视频内容)中选取数以千或百计可能感兴趣的候选内容,例如协同过滤(Collaborative Filtering[1])算法和FM算法(Factorization Machines[2])。排序算法对召回的候选内容进行排序,按照用户感兴趣的程度对内容进行排序,并展示给用户,例如逻辑回归(Logistic Regression[3])算法和DeepFM[4]算法。

二、现有技术的缺点及需要解决的问题


  通常针对有行为的用户,一般通过算法模型计算推荐结果。然而在互联网场景中,用户和内容都是在不断增长变化的,必定会频繁面对新内容和新用户,由于新用户没有行为或行为很少,难以通过算法模型为其推荐内容,一般为其推荐预圈选好的少部分优质内容,称之为用户冷启动。
  由于用户兴趣的差异性,为新用户推荐最新最热等预圈选内容会使得推荐结果缺乏个性化,只能满足部分人的需求。即便是结合少量标签进行用户画像推荐,效果也不够理想,为新用户提供个性化推荐是急需解决的问题。

三、基于协同过滤的冷启动推荐算法


  协同过滤召回算法适用于用户行为丰富的场景,例如为用户A推荐其相似用户B喜欢的内容,需要有足够的数据计算A和B的相似度。本文结合协同过滤算法、聚类算法和Embedding算法进行用户冷启动推荐。具体实现如下:
  (一)用户聚类(分群)
  本文使用深度学习卷积神经网络(CNN)算法从用户基础信息(性别、年龄和地区等)、昵称信息和头像信息提取特征,随后利用Kmeans[5]聚类算法对用户进行聚类,得到不同的用户群。
  (二)用户群行为合并
  由于单个新用户行为稀疏,难以直接使用协同过滤算法,因此可以将同一用户群的用户行为进行合并。在此基础上,由于不同用户到聚类中心点的距离不一样(可理解为用户属于不同类别的相似度不一样),因此不同用户的行为权重有所差别,不能直接合并。本文提出了一种加权行为合并方案,对用户群i,假设用户j到聚类中心点的距离为di,j用户群i中所有用户到中心点的最大距离为max(di),可定义用户j的行为权重为wi,j用户离聚类中心点越近权重越大,表示用户与该类的相似度越大,公式如下:
  wi,j =1-di,j / max (di)
  根据上式求得的权重,对同一用户群内的用户行为进行加权合并。假设用户对电影的原始评分只有0和1,用户群i(其中用户群i有n个用户)对电影k的得分是每个用户对电影k分数的加权求和,公式如下:
  new_scorei,k = =1 wi,j * scorek
  由于用户群中不同用户的行为都合并在一起了,使原本稀疏的矩阵变得稠密,因此合并后的用户群适合使用协同过滤算法。
  (三)基于用户群进行协同过滤+embedding进行推荐通过上述的聚类和行为合并,得到用户群样本后,可以将一个用户群i看作一个用户,然后基于用户协同过滤计算用户群i的相似度,为用户群推荐最相似用户群的评分topK内容。假设经协同过滤得到“用户群1”最相似的用户群为“用户群99”,取“用户群99”评分最高且“用户群1”未看过的1000部电影作为“用户群1”的初步推荐结果。这是为用户群整体所做的推荐,难以通过上述权重计算公式拆分每个用户的评分,也不宜为用户群所有用户推荐一样的内容。
  基于此,由于用户群维度有较为丰富的行为,针对该用户群进行DeepFM建模,得到各用户群embedding向量。通过Step1CNN提取的特征构造用户embedding向量。
  最后计算用户embedding向量到候选内容embedding向量的距离(相似度),为每个内容推荐距离最近(最相似)的topN个内容,例如100个。

四、总结


  新用戶行为稀疏,难以通过模型为其推荐内容,通常通过年龄、性别、地区等用户画像的方式划分用户群进行分群推荐,缺少个性化。本文结合协同过滤、聚类和embedding提出了一种新的用户冷启动方法,可以有效地为不同用户推荐更丰富的内容,能更好地解决用户冷启动问题。
其他文献
【关键词】电子信息工程;计算机网络技术;应用对策一、电子信息工程和计算机网络技术的概述  (一)电子信息工程  电子信息工程专业是专门应用电子计算机等各种现代化信息技术手段进行工业电子信息分析控制和应用电子工业信息处理的一门专业技术学科,主要对工业电子信息数据进行分析获取和控制处理、信息系统的设计开发与维护利用,以及进行信息分析技术研究。电子信息技术工程学还具有操作便捷性、准确性和应用广泛性的三大
一、引言  在大数据时代即信息数据整合的时代下,能有效整合和处理常用软件所不能采集和整理的各类信息数据。数据作为企业发展中最具价值的资产,对企业的生存和发展有着重要的意义。而大数据的应用往往与云计算紧密结合,云数据的作用在于保障数据资产的安全性和隐秘性,为数据资产提供访问场所和方式。随着网络信息技术应用的不断成熟,企业的信息量远超于以往,无论是企业产品的交易信息、物流信息还是企业员工之间的交流互动
一、电工电子技术课程开展“课程思政”教改创新的必要性  知识传授和价值引导的课堂教学过程本身,是教育人的基本形式,是最重要的育人过程,也是最重要的教育育人方式。“课程思想政治教育”的实质不是开辟新的培养以及更高道德情操的课程或活动,而是围绕“知识与价值相结合”的课程目标进行改革,课程思想政治教学将思想政治教育纳入课程教学的各个方面,主要是指培养学生成为具有相对扎实的理论基础和广泛的知识、具有坚定理
【关键词】传感器;教学方法;有效教学  传感器及检测技术是高等学校测控技术、电子信息、自动化、机械工程等专业的一门重要的专业技术课。课程的主要内容包括各种传感器的基本工作原理、结构、类型、性能、特点、适用范围及其测量电路[1]。  在实际应用中,由于各类传感器的工作原理是不同的,导致本课程信息量大,涉及的范围较广,各章节教学内容相对独立,缺乏连续性和系统性,知识更新较快,学生不易系统掌握,导致学生
【关键词】电子机柜;结构设计;优化一、引言  在电气设备之中安装电气元器件与机械零部件,促使設备为一个整体化的基础结构,那么该设备就是机柜机箱结构,简称为电气机柜或者是机柜。机柜为安装和防护电气设备的电子元器件与机械零部件的关键结构。二、电子机柜概述  从形式之上来分析,电子机柜为机械零部件、连接电缆、电子元器件、功能单元与机柜内部各分机(插箱)的一类机械包装,这是确保设备电气性能,促使其安全稳定
电子档案管理从字面意思来看,就是将纸质资料中的内容,全都录入电脑之中,以便之后查看。电子类的管理,如果没有良好的保护系统,一些机密的内容会遭到泄露,从而造成商业机密的流失,給管理公司带来不可估量的损失。所以想要建立电子档案,就需要通过技术进行一系列的保密设置,去对电子信息进行全方位保护。一、分类别整理档案,并设置查看密码  电子档案的录入之中,有不同种类的信息,这时就需要管理人员分门别类地整理,将