论文部分内容阅读
随着大数据技术的不断成熟,人类也开始进入到信息过载时代,系统中的用户和数据量也迅速增长,这对用户实时快速地获取自己感兴趣的信息带来了很大的困扰,而推荐系统在解决该类问题中具有较好的表现,可以基于用户的历史行为和其他信息为用户推荐针对性的信息。这种推荐过程中要用到各种推荐算法,尤其以协同过滤算法的应用频率最高,但是在数据量不断地增大情况下,该推荐算法面临的问题也越来越突出,主要表现为数据稀疏性、冷启动相关的问题。本文主要对其中的稀疏性问题进行了讨论,分析了此问题产生的原因,提出了基于模糊聚类和隐语义融合模型的推荐算法;最后针对于大数据环境下,对该算法提出了并行化方案。首先,本文对推荐技术的国内外研究现状、体系结构进行了深入研究,同时对个性化推荐相关技术和模糊聚类技术做了详细的介绍,对奇异值分解、隐语义模型等矩阵分解算法的实现进行了说明,同时也分析了它们的优点和不足。其次,本文提出了基于模糊C均值聚类和隐语义融合模型的推荐算法,对项目-显性元素信息和通过隐语义模型分解得到的项目-隐性元素信息进行融合,将融合后得到的混合项目-属性矩阵进行模糊聚类,从而使得项目以不同的概率属于不同的项目类别。同时本文对传统的模糊聚类算法提出了改进,利用网格聚类算法确定初始的聚类中心,减少了传统的模糊聚类因初始聚类中心随机化导致的局部最优化的问题。在大数据环境下,由于计算资源和内存资源瓶颈问题的存在,传统的协同过滤算法已经不能实时准确的去推荐用户感兴趣的目标项目。针对该问题,本文在提出的基于模糊聚类和隐语义融合模型的推荐算法的基础上,提出了基于MapReduce的并行化算法PF-FCM,该算法按照聚类后的集合进行分配资源,减少了基于邻居集中查询目标用户所需要项目的比较范围,推荐效率有了很大提高。最后,本文通过数据集MovieLens对基于模糊聚类和隐语义模型融合的推荐算法及其并行化算法PF-FCM进行了实证和研究。主要针对模糊聚类的聚类个数对矩阵稀疏度的影响、模糊聚类初始化聚类中心的有效性、PF-FCM在不同规模数据集上的性能等问题进行了实验。实验结果表明,对比发现基于模糊聚类和隐语义模型融合的推荐算法及其并行化方案PF-FCM算法可以很好的满足推荐要求,推荐准确度也显著提高。