论文部分内容阅读
用户对信息的需求随着互联网的迅速发展得到了满足,但在海量信息面前,用户要获得自己真正感兴趣的信息反而越来越难,这就是信息超载问题。推荐系统是通过发现用户感兴趣的物品来帮助其解决信息超载的一个有效手段。经典的推荐系统由用户,物品以及用户对物品的评分组成,其关键任务是预测用户对物品的未知评分数据,进而推荐给用户感兴趣的物品。然而,传统的推荐方法(如协同过滤和矩阵分解),仅仅依赖用户对物品的评分数据,存在冷启动和数据稀疏问题。本文以试图解决这两个问题为目标,提出了基于非独立同分布条件下的推荐系统模型。其核心思想是将一些可以获取的如用户和物品属性、社交朋友关系、群组信息等辅助信息,考虑进推荐算法中,重点对这些辅助信息的关系进行分析,提出了基于物品的耦合矩阵分解、混合用户和物品的耦合矩阵分解、基于群组的社交矩阵分解等关键算法,从理论和实验两方面分析和验证了这些辅助信息可以帮助提高推荐质量。另外,为了更精确地对用户和物品进行群组划分,提出了一种整合监督学习的聚类分析框架,解决了传统聚类和分类方法缺失标注数据的问题。本文的主要贡献和创新成果如下:(1)提出了基于物品的耦合矩阵分解模型。目前提出的一些研究物品属性关系的推荐系统方法假设物品属性之间是独立同分布的。事实上,物品的各个属性之间都或多或少地存在着耦合或依赖关系,是非独立同分布的。基于这一事实,本文将物品丰富的属性信息用于解决推荐系统的冷启动和数据稀疏问题。着重分析了物品之间的隐式耦合关系,考虑了该耦合关系对推荐系统的影响。在传统的矩阵分解方法之上,提出了一种新颖的物品耦合矩阵分解模型(CIMF),设计了一种可以捕获物品耦合关系的物品相似性计算方法,该模型不仅考虑了用户对物品的评分喜好,而且将物品之间的耦合关系考虑了进来。该物品耦合关系部分解决了冷启动和数据稀疏问题。在MovieLens和Book-Crossing公开数据集上的对比分析表明本文提出的算法优于传统协同过滤、矩阵分解等方法。(2)提出了混合用户和物品的耦合矩阵分解框架。用户丰富的属性信息也有助于解决推荐系统的冷启动和数据稀疏问题。和物品耦合关系相似,用户属性之间也存在着非独立同分布的耦合关系,在推荐系统中考虑用户耦合关系是很有意义的。首先着重分析了用户属性之间的耦合关系,提出基于属性空间的用户耦合关系分析方法,然后将其和物品耦合关系整合到矩阵分解方法中,并提出新颖的耦合矩阵分解框架(CMF)。该框架考虑了用户对物品的评分喜好,物品耦合关系,以及用户耦合关系,不仅具有传统基于评分的推荐方法的优势,而且部分解决了冷启动和数据稀疏问题。在公开实验数据MovieLens和Book-Crossing上的几组对比实验,验证了用户和物品耦合关系有助于提高推荐效果。(3)提出了基于群组的社交矩阵分解方法。除了用户和物品的属性信息,用户间的朋友关系和物品间的群组关系也有助于解决推荐系统的冷启动的数据稀疏问题。随着社交网络的发展,研究人员已经将用户间的社交朋友关系应用在推荐系统中,基本思想是假设用户的兴趣和其社交朋友的兴趣爱好相似。事实上,用户和物品都有其群组和社区,用户对不同群组的物品喜好程度不同,对不同群组里的用户信任度也不相同。目前已提出的一些社交推荐方法并不能区分用户和物品在不同群组的影响,而且主要依赖用户的社交朋友关系,却忽视了物品关系的影响。因此,本文提出基于群组的社交矩阵分解方法(CGMF),考虑了社交网络信息,物品间关系以及群组信息,区分了对不同群组用户的信任度,以及对不同群组物品的喜好程度。用户的社交关系有助于解决冷启动问题,而用户及物品的群组信息则缓解了数据稀疏问题。在公开数据集MovieLens、Last.Fm和DBLP上的对比实验,验证了本文方法的有效性。(4)提出了整合监督学习的聚类分析框架。群组信息有助于提高推荐系统的效果,而聚类和分类方法可以将用户和物品划分为不同的群组。传统的聚类和分类算法由于缺失标注数据,并不能取得良好的划分效果。为了解决聚类和分类的标注数据缺失问题,提出了一种整合监督学习的聚类分析框架(CSAL),首先使用传统聚类算法对数据进行初步划分,然后通过训练集选择方法选取部分聚好类别的数据点去训练监督分类器,最后通过期望最大化的迭代过程精炼训练集的选择。CSAL克服了传统聚类和分类方法标注数据缺失的问题,在UCI公开数据上的几组实验比较了不同训练集选择方法的效果,验证了本文方法与传统聚类和分类方法相比的优越性。