基于深度强化学习的推荐系统研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:s574751142
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今,推荐系统已经成为用户处理信息过载问题时的一种强有力的工具,其通过分析用户和推荐物品之间的特征,或已有用户和物品之间的行为记录,帮助用户进行筛选。尽管传统机器学习在推荐系统领域已经取得了显著的成功,但是仍存在着许多难以克服的缺陷,如模型的表述能力受限,无法很好适应动态的用户兴趣的变化等,但近年来深度学习的蓬勃发展为推荐系统带来了新的生机。与此同时,自AlphaGo之后,深度强化学习在近两年来得到了长足的发展,不仅在游戏领域有着大量应用,也在诸如控制、自然语言处理等方面也崭露头角。在多数推荐系统工作的场景中,其与用户之间的不断交互与反馈过程非常类似于强化学习擅长处理的环境,综上本文将深度学习,强化学习和推荐系统相结合,提出了一种基于深度强化学习的推荐系统模型,主要工作包括:1)将推荐系统和强化学习相结合,对用户和推荐系统交互的过程进行马尔科夫建模,详细的定义了在该过程中的状态转移方式以及回报函数等,并构建了一套动态的长期的交互式推荐系统环境;2)利用深度学习中的门循环控制单元,并引入条目嵌入,对推荐的物品进行低维度编码,使得由推荐物品历史所代表的状态有着更丰富的信息表示。3)将强化学习经典的值方法Deep Q Network和交互式推荐系统相结合,提出直接面向Top N问题建模的深度强化学习推荐系统,并根据实际训练中难以训练,数据强关联性等问题提出了多种和交互式推荐系统相结合的优化模型,如基于目标网络的推荐系统等。结合强化学习值方法和策略梯度方法中的优点,提出了基于Actor-Critic框架的深度强化学习推荐模型,大幅度提升了在大规模数据上推荐性能;4)分析了ReLU激活函数在该问题上的缺陷,并引入了基于数据特性的Dice激活函数,大幅度的提升了部分模型在相同情况下的表现,并分析了新激活函数的时间以及空间损耗情况。5)对于本文中所提出的所有强化学习模型并加入在当前推荐系统流行的方法进行了详尽的对比实验,包括冷启动和温启动测试以及在长期跟踪用户动态喜好进行推荐性能方面的差异,为后续研究提供了方向。
其他文献
<正>求极限不仅要准确理解极限的概念、性质和极限存在的条件,而且还要能准确地求出各种极限。求极限的方法很多,针对学生的实际情况,本文从一类计算方法总结如下。
旅游的可持续发展对科技的依赖日益显著,特别是在经济发展相对滞后的地区,必须引入科技观念发展旅游,提升旅游发展的品质,实现效益型发展模式。广西作为经济发展相对落后,科
从云南省区域位置的重要性论述了云南省生物多样性的地位及意义,分析了云南省生物多样性的地理成因和特点,并提出了云南省在绿色经济建设中生物多样性的保护对策。
<正> 目前,很多单位在推广使用定型组合钢模板时,用截面50×10毫米的定型方钢代替木楞。方钢虽然强度高,但自重大,造价高。为减轻模板结构的自重及减少投资费用,建议:钢模板
期刊
随着人们消费水平的提高,对牛肉的需求量越来越大。我国虽然是养牛大国,但肉牛屠宰率非常低,与世界畜牧业发达国家差距很大,其中牛种是关键原因之一。在肉牛专门化品种培育上
LIM结构域蛋白是一个重要的发育调控因子 ,参与基因转录、细胞骨架建成和信号传导等许多发育调控过程。胞质骨架是形成和稳定细胞形态以及传递物质、能量和信息的重要成分。
培养学生正向的学习态度是各国数学课程重要目标之一。本文选取TIMSS 2007数据库中中国台湾、韩国、中国香港、日本、新加坡东亚五国地区资料分析学生数学学习兴趣、自信、对
目的探讨卵巢囊肿与女性不孕症二者存在的关系。方法回顾性分析了2008年9月至2012年9月入住我院的120例卵巢囊肿患者的临床资料,对本组患者中发生不孕症的比例以及囊肿规格、
对16例断指再植的护理进行分析总结,认为正确的治疗和规范的护理是提高断指再植成活率的关键,包括:心理护理;基础护理;烤灯的护理;断指血运情况的观察;断指切口放血的护理及
<正>微创外科是现代外科发展的主要趋势之一,腹腔镜手术是近年来腹部手术选用的一种新技术,由于创伤轻、痛苦小、住院时间短,患者恢复快等优点,深受患者的欢迎。因此与腹腔镜