论文部分内容阅读
近年来,随着网络技术的快速普及,智能电视逐渐取代传统的有线电视进入千家万户。智能电视基于网络技术,使观众能够在单一平台上方便地访问互联网上的海量节目。与有线电视中用户只能观看当前电视台播放的节目不同,在智能电视平台上用户可以选择网络上有权限的任意节目观看。与此同时,互联网上海量的节目也使得用户在筛选心仪节目的时候变得困难。此外,智能电视节目的推荐比传统的视频推荐更加具有挑战性。一方面,智能电视存在共享账号的问题,即多个家庭成员共享一个智能电视账号。另一方面,在智能电视节目的观看行为中存在弱隐式反馈问题,即看过的节目不一定是正反馈。在传统的隐式反馈推荐系统中一般都会把用户交互过的物品看作是正反馈。但在智能电视场景下,用户在探索喜好的过程中有很多节目只看了很短的时间,这些节目可能不是用户喜欢的。因此,解决上述两个挑战,并能够根据用户的观看历史为用户推荐个性化的智能电视节目变得至关重要。海信作为中国第一大、世界第三大电视制造商,它拥有千万级的用户规模。为了解决这些新的挑战,我们对海信智能电视上的用户观看记录进行了分析。并且发现了三个有趣的现象。第一个现象是不同的家庭成员有不同的节目观看时间。第二个现象是一个家庭在相邻时间段观看的节目相似。第三个现象是节目的观看时长可以反映用户偏好。我们分别对这三种现象进行了实验验证。并且针对上述三种现象,我们分别提出了三个机制用于提高推荐性能。基于第一个现象,我们利用K均值方法将一天聚类到几个固定的时间段,单独地研究每个时间段的用户观看行为。因此,不同家庭成员的观看记录大致对应不同的时间段。利用这个现象,我们可以在一定程度上解决智能电视中存在的共享账号问题。为了解决第二种现象带来的问题,我们引入了滑动窗口算法,将每个时间段和其相邻的时间段看作是一个窗口。针对第三种现象我们提出了很直观的方法把弱隐式反馈信息映射为显式的分数。可以解决智能电视存在的弱隐式反馈问题。最后引入时间段信息将矩阵模型扩展成张量模型,并基于贝叶斯个性化排序(Bayesian Personalized Ranking,BPR)框架提出了时间感知贝叶斯个性化排序算法(Tiimc-awarc Bayesian Personalized Rankilng,TABPR)。因此我们可以在不同的时间段学习不同的用户偏好,并且解决了智能电视中存在的共享账号和弱隐式反馈的难题。在大规模真实数据集即海信智能电视数据集上进行的实验证明了时间感知贝叶斯个性化排序算法的有效性,并且比现有的先进算法有很大地提高。另外,我们还进行了大量的分析实验,实验结果表明基于上述三个现象所提出的三种机制都有益于推荐效果。