论文部分内容阅读
随着互联网浪潮以及移动Web 2.0时代的到来,视频资源和用户规模与日俱增,但随之带来的是严重信息过载问题。对于视频服务平台来说,个性化推荐系统能够有效地获取用户的兴趣偏好从而对用户进行定向精准投放;对于用户来说,个性化推荐帮助其解决了信息冗余的问题。所以作为一个平台-用户双赢的策略,个性化推荐系统不仅增强了用户对平台服务的依赖性而且极大的缩短了用户获取视频资源花费的时间。在这个背景下,本文对个性化推荐系统进行了深入的研究,并且借助当今前沿的自然语言处理技术提出了一种基于用户播放行为序列的个性化推荐算法Seq4Rec。Seq4Rec算法将用户的历史视频播放序列类比成自然语言中的词序列,利用自然语言处理算法对视频ID序列进行处理并进一步得到相应的视频向量,从而将无特征及标签信息的视频映射为若干维度的视频向量。但是值得注意的一点是单一的视频向量在每个维度上没有实际意义,只有视频向量之间的相对信息才具有实用价值。本文提出的个性化推荐算法根据用户视频观看历史以及视频与视频之间的相似度来针对每个用户产生千人千面的个性化视频推荐。在本文中,我们首先通过当今前沿的自然语言处理算法对视频进行建模,然后在此基础上结合传统的协同过滤算法对用户产生推荐。根据Seq4Rec算法的相关原理,对腾讯视频提供的去敏的用户历史播放行为数据进行了实验设计。实验中我们首先对无规则数据进行清洗并根据用户每个视频播放时间顺序进行算法训练集构造,接着使用NLP中的skip-gram模型对数据进行建模,然后对用户的历史播放视频进行聚类并进一步计算得到用户的兴趣分布矩阵,最后结合用户兴趣与观看历史来产生个性化的视频推荐,并将实验结果分别与热门推荐、基于用户的协同过滤(User Based Collaborative Filtering,UserCF)和基于物品的协同过滤推荐(Item Based Collaborative Filtering,ItemCF)等算法结果进行了对比分析。实验结果表明,本文提出的Seq4Rec算法结果要显著优于对比算法。