论文部分内容阅读
近年来,大数据技术的飞速发展使得数字信息资源呈现爆炸式的增长,各类数字信息纷繁复杂,充斥着整个互联网空间。用户如何从海量的数据中筛选出真正需要的信息,商家如何准确的将商品销售给有需求的用户,这些需求使得推荐系统越来越手重视,基于大数据深度学习的个性化推荐系统也正在蓬勃发展。目前,大量的互联网行为都是通过实时在线的方式完成的,越来越多的用户选择在线听音乐、购物、看电影等,实时在线推荐系统在推荐领域备受关注。它要求推荐系统能够快速的对用户反馈做出相应,建立用户画像,探索发掘用户的兴趣点,为用户推荐喜爱的物品。基于上下文的多臂赌博机算法起源于赌博学,其核心就是解决如何做出选择的问题。近年来,该算法越来越多的应用到在线推荐领域并取得了不错的效果。该算法能够构建用户画像,并不断的探索、维持用户画像,通过在推荐过程中不断的学习,使得算法能够越来越了解用户。但是,该算法在为用户做推荐的过程中,对任何一个物品都使用了全部的用户画像中保存的兴趣偏好特征,忽略了对于特殊的物品要自适应的选择性的使用相关的兴趣偏好,使得在推荐的过程中引入了过多的噪声影响,降低了推荐的准确率。所以,在本文的研究工作中,我们提出了一种自适应的基于上下文的多臂赌博机算法(AdaLinUCB)。在推荐的过程中,该算法首先使用一个用户兴趣过滤矩阵针对每个具体的物品自适应的对用户兴趣偏好参数进行过滤,得到一个新的用户兴趣偏好。然后,对于每个候选推荐物品都使用相应的过滤之后的用户兴趣偏好参数进行评分预测。随后,将所有物品中评分预测最高的物品推荐给用户,用户会对该物品做出一个真实的评分反馈。最后推荐系统使用得到的评分反馈更新用户兴趣偏好参数和用户兴趣过滤矩阵,使得在接下来的推荐中能够为用户推荐更适合的物品。该推荐过程中,我们提出了一种交替梯度下降的方法来进行参数的更新和学习,同时使用在线滑动窗口模型对用户推荐历史进行管理,努力将在线推荐过程中参数更新过程对推荐效率的影响降到最低,保证在提高推荐准确率的同时不牺牲实时在线的推荐效率。我们在两个公开数据集上进行了大量的实验,与大量的基准对照算法相比,我们提出的自适应的上下文多臂赌博机算法取得了良好的实验结果,甚至在用户累积评分反馈上取得了 15%的效果的提高。同时,我们也对实时推荐效率进行了对比实验,我们的算法在提高推荐准确率的同时有着不错的时间效率表现。在对用户兴趣过滤矩阵可视化之后,发现算法的深度学习过程及结果是可解释的,从而验证了自适应是上下文多臂赌博机算法的有效性。