论文部分内容阅读
在当今,推荐系统已经成为用户处理信息过载问题时的一种强有力的工具,其通过分析用户和推荐物品之间的特征,或已有用户和物品之间的行为记录,帮助用户进行筛选。尽管传统机器学习在推荐系统领域已经取得了显著的成功,但是仍存在着许多难以克服的缺陷,如模型的表述能力受限,无法很好适应动态的用户兴趣的变化等,但近年来深度学习的蓬勃发展为推荐系统带来了新的生机。与此同时,自AlphaGo之后,深度强化学习在近两年来得到了长足的发展,不仅在游戏领域有着大量应用,也在诸如控制、自然语言处理等方面也崭露头角。在多数推荐系统工作的场景中,其与用户之间的不断交互与反馈过程非常类似于强化学习擅长处理的环境,综上本文将深度学习,强化学习和推荐系统相结合,提出了一种基于深度强化学习的推荐系统模型,主要工作包括:1)将推荐系统和强化学习相结合,对用户和推荐系统交互的过程进行马尔科夫建模,详细的定义了在该过程中的状态转移方式以及回报函数等,并构建了一套动态的长期的交互式推荐系统环境;2)利用深度学习中的门循环控制单元,并引入条目嵌入,对推荐的物品进行低维度编码,使得由推荐物品历史所代表的状态有着更丰富的信息表示。3)将强化学习经典的值方法Deep Q Network和交互式推荐系统相结合,提出直接面向Top N问题建模的深度强化学习推荐系统,并根据实际训练中难以训练,数据强关联性等问题提出了多种和交互式推荐系统相结合的优化模型,如基于目标网络的推荐系统等。结合强化学习值方法和策略梯度方法中的优点,提出了基于Actor-Critic框架的深度强化学习推荐模型,大幅度提升了在大规模数据上推荐性能;4)分析了ReLU激活函数在该问题上的缺陷,并引入了基于数据特性的Dice激活函数,大幅度的提升了部分模型在相同情况下的表现,并分析了新激活函数的时间以及空间损耗情况。5)对于本文中所提出的所有强化学习模型并加入在当前推荐系统流行的方法进行了详尽的对比实验,包括冷启动和温启动测试以及在长期跟踪用户动态喜好进行推荐性能方面的差异,为后续研究提供了方向。