论文部分内容阅读
推荐系统作为信息过滤的工具,实现了对于用户个性化需求的满足。在实际的商业商品在线销售场景中,如何利用推荐系统技术提高推荐商品的准确率,有着其实际的商业价值。同时对于本课题面临的浙江电视台好易购频道的数据,具有着用户商品交互信息极度稀疏的特点,如何结合已有的用户商品结构信息,合理定义优化问题并对优化问题求解来提高商业指标,有着切实的研究意义。本文基于好易购数据,为其设计定制了优化top-1准确率的推荐系统算法和系统。其中本文详细三方面工作如下: 1.针对原始问题数据极度稀疏的情况,使用结构信息进行缓解和特征填充,在本问题上定制和扩充成对偏好模型。包括用户属性结构信息、用户地域结构信息、商品类目结构信息、商品排序结构信息等。通过逐步加入上面的各方面因素,不断完善原始基于成对偏好特征的算法。 2.比较相关推荐问题的多种损失函数,选择设计合适的Log损失函数。同时为了优化项部准确率修改损失函数形式为成对Log损失函数。针对问题具有明显时序的性质设计对于数据集的基于时序结构的洗牌策略,并根据本问题特点设计对应在线学习算法。 3.设计并实现了一套从分布式数据增量收集,时实特征获取、数据更新的双buffer到基于批的在线学习的完整推荐系统。其中定义了较为通用的整体架构,对模型进行实时切换实现模型的热加载,对于在线学习自适应环境变化提供支持。 通过三方面的工作,分别对于原始成对偏好回归模型进行了扩充;对于本问题的特有情况进行了优化问题定义和定制的求解;设计并实现了一套基于分布式数据收集和处理的在线学习推荐系统。本文的工作针对特定的数据极度稀疏但外源信息极度丰富的商业推荐场景,设计了一套完整的推荐系统算法和系统解决方案,对于类似的推荐系统问题的设计与实现具有一定的参考价值。