论文部分内容阅读
互联网技术与应用服务的快速发展,信息的爆炸式增长成为重要的时代特征,人们在享受信息增长红利的同时,也正面临着信息过载问题。在这种背景下,如何准确快速的从信息的海洋中获取用户感兴趣的内容,成为众多专家、互联网用户、服务提供商普遍关注的关键问题,推荐系统作为一种有效的解决方案应运而生。协同过滤模型是推荐系统中应用最为广泛和成功的推荐技术之一,本文以其作为研究对象,目标旨在解决推荐过程中所遇到的数据稀疏性、冷启动、信任度量、用户项目权重度量等一系列关键问题,提高系统推荐质量。对于推荐系统中的协同过滤模型,本文相应的应用与理论研究工作主要从以下几个方面展开:(1)对推荐系统的研究背景与国内外研究现状进行了综述,分析了目前系统中存在的一些传统问题和新问题,通过提出若干新方法、新理论来寻找解决问题的有效途径。然后对不同应用领域中的推荐系统及其定义进行了描述,介绍了系统的组成模块和完整的推荐流程。最后整理归纳了系统中常用的一些推荐模型,给出了它们各自的工作原理、适用范围和优缺点等内容,以及一些系统性能评估标准。(2)针对数据稀疏性问题,从信任属性出发,通过引入用户可信度概念、建立信任模型对评分矩阵进行预填充,利用自适应平衡因子协调处理评分方面和用户属性方面的项目相似性度量,提出了一种基于信任模型填充的协同过滤推荐模型,以此进行未评分项目的评分预测并完成项目推荐。最终在数据稀疏性条件下,通过提高评分矩阵数据密度,在推荐模型系统预测准确度方面获得了明显改进,从而表明模型可以有效的缓解数据稀疏性问题。(3)传统的协同过滤模型一般仅从用户或项目的角度来建立相似性模型,由于信息源单一导致模型性能下降,以及会面临数据稀疏性和冷启动问题等。为此,综合考虑用户和项目两方面,提出了一种结合用户项目的协同过滤推荐模型,模型通过对基于用户和项目的相似性模型进行优化,同时结合用户、项目类别可信度分别获得两方面的评分预测结果,最后借助自适应平衡因子完成整个推荐过程。(4)不同用户的重要性程度是不一样的,项目同样如此,但传统的协同过滤模型并未充分考虑这一问题,而是在推荐过程中将它们无差别对待,这在一定程度上限制了系统性能。对此,本文对不同用户、项目的权重进行度量,同时获得用户关于项目的权重,在此基础上提出了四种考虑用户项目权重的协同过滤推荐模型。基于权重评分矩阵,模型在不同的数据集和不同的评估标准下均性能良好,且具有较为合理的时间开销。(5)系统的评分数据中包含着许多上下文信息,但传统的协同过滤模型在度量用户相似性时并没有充分考虑这些信息,仅是对评分值本身进行一般性运算操作。针对该问题,本文从评分上下文信息着手,利用评分奇异性模型对用户评分进行统计分析,然后通过用户相似性模型结合多渠道扩散过程模型,提出了融合奇异性和扩散过程的协同过滤模型及其扩展模型。最终,模型在不同的数据集和不同的评估标准下均表现出优异的性能和良好的可扩展性,同时在时间开销方面也较为合理。(6)针对系统推荐过程中用户的多样化需求考虑缺失的问题,提出了项目分类条件下的协同过滤推荐模型。模型首先对评分矩阵按照项目类别进行分类,然后利用优化的相似性模型对矩阵进行迭代填充,合并成一个数据密度更高的用户-项目评分矩阵,在此基础上完成项目的全局评分预测,最终通过自适应平衡因子结合局部评分预测结果获得项目推荐。在不同的数据集中,模型在预测准确度和项目类别覆盖率方面均表现优秀,且在数据集更加稀疏的条件下,性能同样表现出色。