论文部分内容阅读
互联网蓬勃发展,已经进入了人们生活的方方面面,给人们生活带来便捷的同时,产生了大量的数据。面对海量的信息,用户很难检索出自己感兴趣的信息,导致了“信息过载”现象。为了解决这类问题,推荐系统应运而生,其通过分析用户提供的信息及其行为,建立用户的兴趣模式,匹配用户偏好,主动向用户推荐其感兴趣的信息,帮助用户发现其潜在的感兴趣信息,提升用户对系统的忠诚度,推动了信息的交互。在推荐系统中推荐算法是核心,其中协同过滤技术是应用最广泛,最成熟的技术。协同过滤技术不需要用户档案,不需要领域相关的知识,它基于用户的历史行为和历史数据,推理出用户隐藏的行为模式和兴趣偏好,然后进行相关的推荐。由于协同过滤技术具有较好的推荐效果和较好的扩展性,已应用于多个大型商务网站。本文对协同过滤技术进行深入的研究,提出了一个多模型的整合模型,对推荐精度有较大的提升。本文分析了协同过滤两大主流模型,即隐因子模型和邻居模型。隐因子模型主要讨论奇异值分解(SVD)技术,邻居模型主要讨论基于项目和基于用户的模型。分析隐因子模型和邻居模型各自的优劣,对协同过滤技术中存在的问题,如可解释性,扩展性,新用户等问题进行分析研究。针对SVD模型精度较高但是缺乏可解释性的问题,引入了不对称的SVD模型。通过考虑用户和项目偏差来修改皮尔逊相关相似性度量规则,以邻居关系来剪枝不相关的项目间联系,从而形成了剪枝的全局邻居模型,降低了时间空间复杂度,解决了全局优化邻居模型的扩展性问题。但由于剪枝会影响精度,因此为了在降低时间和空间复杂度的同时不影响精度,提出因子化项目关系的全局优化邻居模型,该模型类似于不对称SVD模型,但却有不同的意义。该模型既能整合因子化用户关系,又能在保持精度的同时降低时间和空间复杂度,还改善了可解释性,扩展性和新用户等问题。本文还分析了三个影响推荐技术精度的其它因素,即隐式反馈、时间动态影响因子和置信水平,分别总结了其在各个模型上的表现形式,并得到隐式反馈和时间动态影响因子对推荐效果的提升远大于其他因素对模型的改进的结论。最后综合前文的总结、研究分析及一些改进工作,提出了一个整合了基线估计、剪枝的全局邻居模型、SVD++和因子化用户关系的全局邻居模型,以及添加了时间动态影响的新的综合模型。本文在Netflix数据集上进行实验,根据均方误差根(RMSE)测量推荐效果。分别比较各个邻居模型的精度和各个SVD模型的精度;比较了不同因子化邻居模型对运行时间的改善;比较了带有时间动态影响因子模型和不带时间动态因子模型的精度。由Netflix数据集上的实验验证了以下结论:因子化用户间或项目间关系能显著降低系统运行时间;时间动态影响因子能显著提升系统推荐精度。最后比较了本文提出的新模型与TimeSVD++模型,验证了新模型能较大的提升系统的推荐精度。