论文部分内容阅读
在海量数据环境中,个性化推荐系统成为了帮助用户发现自己感兴趣的物品或信息的利器,在很大程度上节约了用户在寻找物品或信息时的时间和精力。另一方面,随着数据量的飞速增长,传统协同过滤算法作为当下最成功的推荐算法之一,正面经受着用户评分矩阵稀疏性问题所造成的严峻影响。本文主要对推荐系统面临的推荐准确性问题进行了深入的分析和研究,在基于用户协同过滤算法(User-Based Collaborative Filtering,下文简写为UBCF)的基础上,利用用户兴趣这一属性对用户相似度算法进行了改进,并对传统尺最近邻算法(K-Nearest Neighbor,下文简写为KNN)进行了简单优化,将两者融合提出了一种改进的协同过滤算法。本文首先阐述了个性化推荐策略国内外的发展现状,并对几种常见的推荐策略进行了分析,比较了各自优缺点,着重介绍了基于用户协同过滤算法。然后分析了协同过滤推荐算法的关键——用户相似性算法,选取了其中在基于用户协同过滤算法中效果最佳的皮尔逊算法进行进一步分析,发现其中存在对于用户兴趣未充分利用以及同一用户不同项目类别之间评分尺度不一致问题。本文通过引入用户兴趣值以及期望值这两个概念,从而提出了一种基于用户兴趣值和期望值的改进用户相似度算法。接下来,通过对传统尺最近邻算法进行分析,发现由于数据稀疏性过大,为目标用户选择了最近邻用户集合后,在对目标项目进行预测评分阶段可能会出现只有极少数甚至没有用户对目标项目进行过评分的情况,这将对推荐质量造成不良影响。基于此点,本文提出了一种经过简单改进后的KNN算法。而后,将改进的用户相似度算法和改进的KNN算法进行融合,提出一种改进的协同过滤算法。并通过实验得到最合适的调和参数,基于此调和参数,设计了一系列合理的实验对该算法的有效性进行验证。实验结果表明,本文提出的改进协同过滤算法能在很大程度上提高用户相似度的准确率,并得到较好的推荐效果。最后对本文所提出的改进算法进行了实现,设计了一个推荐列表可视化工具。