论文部分内容阅读
随着网络和数据规模的日益扩大,为了让用户获取到更加符合自身条件的数据,推荐系统应运而生。协同过滤被普遍的运用在当前许多推荐系统中。协同过滤推荐存在数据稀疏性和系统的可扩展性问题。基于这两个问题,本文将聚类方法和模式挖掘技术应用到其中做出相关研究和改进。本文先研究梳理现有的推荐系统的分类,同时也总结这些推荐系统的优缺点。然后着重对协同过滤推荐系统的整个流程进行详述,并基于此总结不同类别的协同过滤算法的优缺点。结合这些研究提出如下改进:第一,为了缓解数据稀疏性的影响,本文提出一种结合频繁模式挖掘算法的评分填充方法MFM。该方法首先按照评分可以简化为高分和低分的特点将评分矩阵进行预处理,产生初始事务集后执行FP-Growth算法挖掘出频繁模式;然后处理这些频繁模式,产生能够衡量用户对项目评分高低的参照集合;最后使用这些参照集合计算出用户对项目评分为高分的概率,利用此概率值计算出填充评分。由于得出的填充评分更加合理,使得该方法能明显提升推荐质量。第二,本文基于聚类和标签改进协同过滤算法的近邻选择。首先结合信息熵计算用户对项目标签的偏好值,进而构造用户-项目标签偏好矩阵,在该矩阵上使用K-means算法完成用户聚类;与此同时使用用户标签对用户进行分类;最后将用户聚类与用户分类的结果合并,产生候选近邻集合用于近邻选择。通过这种改进使得近邻选择能在更小且更加精确的用户集合中进行,从而在保证了推荐质量的同时有效提升系统的可扩展性。第三,基于上述两个改进点提出本文改进的算法FPMUC-UCF。为了验证上述改进的有效性,本文基于Java语言和LibRec设计实验,并在MovieLens100K数据集上进行仿真实验得出实验结果。经过实验的对照证实本文提出的改进点的有效性。在上述理论研究和实验的基础上,本文最后使用改进的算法以Java Web技术和B/S架构实现了一个电影推荐系统MRSystem,同时详细的阐述系统各个部分的实现过程。在完成系统的开发后,达到了理论知识的实际应用。