基于矩阵分解的推荐算法研究

来源 :国防科技大学 | 被引量 : 2次 | 上传用户:focus2316a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网和信息技术改变了人们发现和获取信息的方式,给人们的工作和学习带来了极大的便利。随着用户数量的迅速增长,互联网上的信息也在急剧膨胀。海量的信息可以更好地满足用户纷繁复杂的信息需求,但同时也对信息处理技术提出了严峻挑战。由于信息资源种类繁多、质量参差不齐、结构复杂,从瀚如烟海的信息洪流中找到有价值的信息正变得越来越困难,这就是所谓的“信息过载”问题。在这种背景下,推荐系统应运而生。推荐系统根据历史行为数据来分析用户的偏好并向其推荐可能感兴趣的内容。作为解决“信息过载”问题的一种重要手段,推荐系统在电子商务、个性化网站等许多领域中都得到广泛应用。尽管取得了极大成功,推荐系统还面临着一些亟待解决的问题,这主要包括稀疏性问题和冷启动问题。针对上述问题,本文采用两种研究的思路:其一,研究如何充分利用现有的评分信息来缓解稀疏性问题和冷启动问题;其二,研究如何通过融合辅助信息来解决稀疏性和冷启动问题。本文对评分预测和Top-N推荐两种应用场景中的推荐算法进行了深入研究,主要做了以下几个方面的创新工作。(1)提出了一种基于聚类特征的隐含因子模型。在评分预测任务中,大多数现有推荐算法只利用了用户或商品的全局信息或是局部信息来进行预测,没能充分利用评分数据中所包含的信息。针对这一问题,本文提出了一种融合局部信息和全局信息的评分预测模型。具体而言,我们首先通过模糊聚类的方式来提取用户和商品的局部聚类特征,然后设计了一种融合这种局部聚类信息的隐含因子模型。相比于传统的方法,我们方法可以更充分地利用评分数据,因此可以获得更高的预测精度。(2)提出了一种基于半监督学习的Top-N推荐模型。在Top-N推荐任务中,同样也面临着稀疏性和冷启动问题。传统的Top-N推荐算法大都忽略了用户在未评价商品之间的偏好信息,导致在稀疏的数据集上推荐效果较差。针对这一问题,本文提出了一种基于半监督学习的Top-N推荐模型。不同于传统的模型只考虑用户在评价过的商品和未评价过的商品之间的偏好信息,该模型将用户评价过的商品集合作为正样本集合,将用户未评价的商品进一步划分成两个子集:中间集合和负样本集合。然后利用用户在这三类商品之间的偏好关系进行模型学习。本文采用基于自训练的半监督学习方法对用户未评价的商品进行划分。在真实数据集上的实验结果表明,该模型在所有评价指标上均优于传统的Top-N推荐模型。(3)提出了一种融合显式与隐式反馈信息的矩阵分解模型。大多数矩阵分解算法都依赖于用户的显式反馈信息。在显式反馈十分稀疏的情况下,这类算法的性能往往不够理想。针对这个问题,本文在概率矩阵分解模型的基础上,通过引入用户的隐式反馈作为辅助信息,设计了一种新的隐含因子模型。在该模型中,显式反馈矩阵和隐式反馈矩阵被分解到同一个空间中。然后,联合优化用户和商品的隐含因子向量。在MovieLens数据集上的一系列实验表明本文提出的模型在评分预测和Top-N推荐任务中都优于其他模型。(4)提出了一种融合评论信息的矩阵分解模型。用户对商品的评论是一种重要的反馈信息,从中可以挖掘出用户偏好、商品特性等许多有价值的信息。充分利用评论信息可以帮助解决推荐系统所面临的稀疏性和冷启动问题。传统的推荐算法通常只关注用户对商品的评分信息而忽略了评论信息。针对这个问题,本文提出了一种融合评论信息的矩阵分解模型。首先通过词袋模型或文档嵌入模型,从评论信息中提取用户和商品的隐含文本特征。然后,将提取到的特征融合到矩阵分解模型当中。在Amazon数据集上的大量实验表明该模型可以有效缓解稀疏性和冷启动问题。综上所述,本文对推荐系统中的评分预测和Top-N推荐等关键问题进行了研究。从充分利用已有信息和融合其他辅助信息两个角度来提高推荐算法的性能,并且在真实数据集上验证了算法的有效性。本文的研究工作对于推荐系统的应用有一定的理论和实际意义。
其他文献
南水北调东线工程是复杂的梯级泵站系统,大多数泵站未能实现优化运行,泵站运行期间耗费大量能源,因此梯级泵站系统优化运行节能潜力巨大。为了研究梯级泵站系统优化运行,本文
2014年6月——一年多来,公众以久违的激情,期待并臆想着这个月份。去年3月,国务院办公厅发布通知,要求2014年6月底前出台《不动产登记条例》。对公众而言,期待这个6月,有如老年得子
报纸
<正>生存状态:三极分化在全球金融危机和产业结构调整的双重作用下,企业的生存状态出现了巨大的反差。根据我们对中国企业当前经营状况的研究分析, 2009年企业生存状态分化为
以可持续发展理论、系统论等作为理论指导,对中美两国校园篮球发展模式进行理论与实践层面的研究,无论是基于我国学校体育综合改革的时代诉求,还是我国青少年力求综合发展的
高考作文试题的考查要求里,一般都会有"结合材料内容……体现你的认识与思考""结合材料,切合身份,贴合背景"或"谈谈你对上述材料的思考和感悟"。以上这些都属于"启发式"要求,