论文部分内容阅读
在当今的很多应用中,在线推荐已经成为一个重要特征。为了更好的用户体验和更高效的信息搜索,在电子商务、流服务、新闻、音乐等众多服务平台中,在线推荐都是一个重要的应用模块。各种在线推荐算法由此应运而生,越来越多的研究工作集中于探索如何应用所有历史数据生成一个更好的推荐模型从而得到更好的推荐结果。实际上,用户和推荐系统之间可能存在稀疏交互,也就是说,用户在使用过程中并不总是和推荐系统进行交互,这有可能影响用于生成模型的历史日志数据的质量。例如,有些用户更喜欢浏览推荐列表的标题,而不是点击查看推荐内容的详情信息。此外,有些用户可能只是打开网页而做着其他事情,其注意力并不在网页内容上,推荐内容完全被忽视。因此,在这些情境下产生的日志数据中,一个奖赏为零的反馈并不一定代表负反馈(即不符合用户兴趣),而有可能是无反馈(即未被观测)。当每次只有一个物品推荐给用户并且没有其他多余上下文信息时,区分负反馈和无反馈变得更加棘手。大多数已有推荐策略都忽视了负反馈和无反馈之间的区别,他们将所有历史数据都当作有效反馈数据,并使用所有的历史数据训练用户模型。事实上,由于用户稀疏交互的高发性,所有历史数据中包含了很大一部分噪声数据,将其引入模型学习会对模型精度造成不良影响,而本论文的工作就想解决这样的问题。因此,本论文的研究工作主要包括:(1)通过分析雅虎新闻的真实日志数据集,我们首次验证了稀疏交互的广泛存在性,并从用户短期点击物品相似度的角度分析了用户短期兴趣的稳定性。(2)基于我们在数据分析中的发现,本论文提出了一种新颖的基于稀疏交互感知的在线推荐方法,即SAOR算法。通过假设相似物品对用户有相似的吸引力,基于用户近期点击物品之间的相似关系,SAOR算法对用户是否在和系统交互进行概率估计,且仅将用户交互状态下产生的数据作为有效反馈数据。之后,基于正反馈和有效负反馈数据,算法进行用户偏好模型建模,而忽略所有的无反馈数据。算法中使用上限置信区间进行探索与利用的权衡。(3)论文中也给出了SAOR算法悔恨界的理论分析,通过分情况讨论算法的单步悔恨,最终证明得到算法的总体悔恨上界。我们在真实数据集和人造数据上同时进行对比实验,实验证明SAOR算法比其他对比算法在各个阶段的累积奖赏更大,总体的点击率更高。同时,由于算法仅在有效反馈产生时才更新模型,因此算法的更新频率也更低。我们还比较了算法间的学习速度和参数敏感程度,实验结果证明SAOR算法的学习速度更快并且性能更加稳定。