论文部分内容阅读
随着互联网的迅速普及,多媒体处理、网络传输、视频数据存储等相关技术快速发展,人们能够接触到更多来自于各种各样视频网站的内容。眼花缭乱的信息充斥着人们的眼睛和大脑,在这样一个视觉和听觉如此丰富繁华的时代,推荐系统作为解决信息过载的方案逐渐受到学术界和工业界越来越多的关注。随着推荐系统的进一步发展,学者们开始不再仅仅关注于用户和视频之间的交互记录,还包括用户和视频自身的属性等信息。由于机器学习特别是深度学习的发展,研究中涌现出许多将视频图片、视频评论等信息与推荐系统结合的方法。弹幕评论是近年来在各互联网平台上越来越受欢迎的评论形式,它使用户能对当前视频片段表达实时的意见或评论,而国内外对弹幕评论的研究还在处在起步的阶段,研究问题主要包括视频关键词提取和视频高亮片段提取两个应用领域。与图片和评论等信息一样,弹幕评论中包含了大量有关用户偏好和视频的特征,因此从中提取语义信息是一种提高推荐系统效果的重要方法。弹幕评论相较于传统的评论有许多特点,包括实时性、自发性、多样性、丰富性和交互性,一方面用户通过弹幕评论表达了对当前视频内容的感兴趣程度,另一方面不同弹幕评论中的话题组成了视频内容的概览,因此从弹幕评论中可以了解到每个用户的关注点以及视频的话题分布,从中提取的用户和视频特征可以帮助推荐模型获得更好的推荐效果。然而弹幕评论存在的随意性、简短性和口语性使得其中常混杂着大量噪音,对于语义提取而言存在一定的阻碍,因此如何充分利用弹幕评论特征并应用在推荐系统中是本文研究的主要内容。本文提出了基于弹幕评论的推荐系统,分析弹幕评论中的用户和物品信息,并利用这些信息进行推荐。本文主要做了以下几方面研究工作:(1)从弹幕视频网站中收集弹幕评论数据,将用户的所有弹幕评论聚合为用户数据集,将视频中包含的所有弹幕评论聚合为视频数据集,然后分别对物品和视频数据集进行分析;对弹幕评论进行了数据统计并按照不同数据特征例如数据稀疏度、视频类型等不同数据特征,研究在此基础上的推荐效果。(2)为了平衡推荐模型性能和训练时间复杂度,本文提出了两个基于弹幕评论的推荐算法:个性化主题推荐模型(Personelised Topic Recommender Model,PTRM)和个性化循环推荐模型(Personelised Recurrent Recommender Model,PRRM)。前者利用话题模型处理弹幕评论提取用户和视频特征,然后在上层设计多层感知神经网络利用用户和视频的交互数据修正用户和视频特征,以提高模型推荐效果;后者利用词向量的方式提取弹幕评论特征,并设计基于注意力机制的循环神经网络从中提取用户和视频的特征用于推荐。(3)通过实际数据集实验将本文算法与经典的推荐算法和基于深度学习的推荐算法进行比较,分析本文模型的推荐性能。(4)设计并实现了基于弹幕评论的推荐系统原型。系统主要功能包括用户注册、登录、观看视频和弹幕评论、发表弹幕评论等,系统收集用户的观看和评论记录,并据此对用户进行个性化推荐。本文首先介绍了基于弹幕评论的推荐系统研究背景和意义,分析了推荐系统和弹幕评论研究的现状和存在问题,提出了本文的技术路线。然后对本文提出的推荐模型进行详细的说明,包括模型参数、结构和训练方法,并在实际数据集上进行实验,验证模型的推荐性能。最后设计并实现了弹幕视频网站原型,展示了模型的真实应用场景。