论文部分内容阅读
随着近十几年来智能手机的普及和移动互联网的迅速发展,人们在享受“信息丰富”便利的同时,也忍受着“信息过载”问题的困扰。推荐系统作为信息过滤的重要工具,获得了学术界和工业界的深入研究和广泛应用。推荐系统基于用户和物品的特征以及它们之间的交互信息,为用户推荐其可能感兴趣的物品。当前主流的推荐算法完全从用户角度出发,致力于为其提供准确、多样的物品推荐列表。然而推荐系统通常包括用户、提供推荐系统的平台和物品提供商三方参与者,一个好的推荐系统应该同时考虑这三方参与者的不同需求。考虑推荐平台和物品提供商的不同需求,本文基于用户的商品交互特征,在提升推荐算法的时间效率、提升不同物品被推荐次数和被购买机会的平均程度等方面开展研究。用户的商品交互特征是指历史记录中用户交互的物品集合的特征,比如用户购买物品的数量(用户度)、用户对于不同流行度物品的偏好等。本文通过挖掘用户的商品交互特征,改进现有的主流推荐算法,从而满足推荐系统不同参与方的需求。本文的主要工作和贡献如下:(1)提出了高效的推荐系统核心用户提取方法,提升推荐算法的运行效率。协同过滤作为最常用的推荐算法,它的核心步骤之一就是两两用户/物品相似度计算。然而在大规模系统中,巨大的用户/物品数量使得两两相似度计算非常耗时。现有研究表明,仅借助少量用户形成的信息核进行推荐,可以有效提升算法运行效率。为了降低现有信息核提取方法的计算时间,本文提出大众兴趣叠加和迭代递减投票两个新的核心用户群生成方法。这两种方法与现有的表现最好的方法相比具有相似的准确性表现,利用30%用户组成的信息核可以达到原始方法准确度90%以上;同时根据用户数和物品数的不同,生成信息核的时间效率相比现有方法提升最高可达上千倍。此外,本文还通过分析不同信息核的关系来解释信息核的作用方式。(2)提出了推荐结果的排序融合方法,提升物品被推荐次数的平均程度。为了避免将少量流行物品推荐给大多数用户,物品供应商希望不同物品能够得到均衡的推荐机会。现有研究表明,从商品角度出发的反向推荐能够有效提升大量冷门物品被推荐的次数。因此,本文同时从用户和商品的角度出发,提出一种推荐结果重排序方法。对于现有推荐算法产生的用户-商品推荐得分矩阵,分别对其进行列排序和行排序,并设计行排序矩阵和列排序矩阵的线性融合方法来得到新的推荐结果。在真实数据集上的实验表明,排序融合方法可以大大提高推荐结果的准确性和物品推荐次数的平均程度。此外,考虑到不同用户对商品流行度的偏好程度不同,对多样性的需求不同,本文还提出了参数个性化的排序融合方法,从而为不同的用户产生不同个性化程度的推荐结果。(3)提出了新的公平性评价指标,用来衡量物品被购买概率的平均程度。物品提供商希望借助推荐系统来提升长尾物品的销量,其中最简单直接的方法就是增加长尾物品的推荐次数,衡量推荐算法这种能力的常用指标就是物品被推荐次数的基尼系数,也被称为覆盖公平性。然而被推荐不等于被购买,不同的商品推荐转化为商品购买的概率是不一样的。通常认为,与推荐系统交互频繁的活跃用户对系统的信任度更高,购买推荐物品的概率更高。因此,本文提出了与用户活跃性正相关的用户购买推荐物品的购买力,基于此计算物品被购买次数的基尼系数,用于衡量推荐系统带来的不同物品销量的公平性。通过在不同数据集上多种多样性评价指标的分析,我们展示了本文提出的销售公平性和覆盖公平性指标相比的独到之处。