基于Spark平台分层协同过滤算法研究

来源 :河北工业大学 | 被引量 : 4次 | 上传用户:sworc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网以及信息技术的迅猛发展,网络中的信息量也在不断增长并逐渐迈向了大数据的时代。但在海量数据面前,用户往往无所适从越来越难以从中获取到各自感兴趣的信息,已从过去信息匮乏的状态转向了目前信息过载的状态。个性化推荐系统的出现,成为了信息过载问题的一种良好解决方案。它根据用户的历史行为信息以及有效的推荐算法,主动为用户推送个性化信息。在推荐系统当中,推荐算法尤为重要直接关系到推荐系统的性能。其中,协同过滤算法是推荐系统中应用最为成熟、有效的推荐算法之一,在个性化、持久性以及自动化等方面均有较大优势。但随着推荐系统中用户数据规模的不断扩大,协同过滤算法仍然面临着数据稀疏性以及可扩展性等问题。为了改善协同过滤算法在高维稀疏数据情况下的推荐精度,本文在基于项目协同过滤的基础上进行相关改进,提出了一种分层联合聚类协同过滤算法(A Hierarchical Co-clustering Collaborative Filtering,简称AHCCF)。考虑到在同一个用户群中由于其共同的喜好用户所感兴趣的项目评分比较密集,计算出的两个项目之间的相似性能够比较真实的反映这两个项目的实际相似性。因此,在AHCCF算法中运用联合聚类技术,对数据集从用户和项目两个维度进行聚类划分。根据联合聚类的划分结果,在不同的用户类簇中对项目相似度进行计算。其中,通过评分密集度对联合聚类划分的分块矩阵以及用户类簇矩阵进行评分稀疏性分析。并根据每个矩阵的评分密集度,由层次分析法计算出每个用户类簇在相似度计算过程中的所占权重,进而计算出项目间的最终相似度。由此,可有效缓解数据稀疏性对相似度计算准确性的影响,提高算法的推荐质量。为了改善传统单机模式下的协同过滤算法在大数据环境中的可扩展性,本文在AHCCF算法的基础上,基于Spark分布式计算平台实现AHCCF算法的并行化,进而提高AHCCF算法的可扩展性和推荐效率。通过在GroupLens提供的不同规模MovieLens数据集上进行实验表明,改进后的AHCCF算法能够明显提高推荐的准确度,并且AHCCF算法在Spark分布式环境下能够获得更好的推荐效率和可扩展性。
其他文献
微乳液法是合成大小、形貌均一的纳米粒子的重要方法之一。微乳液中纳米粒子的合成是一个包含化学反应、晶体成核及晶体生长等的动力学过程。本工作旨在利用介电谱方法对纳米粒子的微乳液合成过程进行实时、原位监测,进而研究该合成中纳米粒子的生长机理。为此,首先通过改变体系中水相含量和其中电解质浓度,利用介电谱研究了TX-100/正己醇/环己烷/氨水微乳液体系的静态介电行为。在频率103-109Hz范围内确定了该
前导0/1预测算法是浮点运算中重要的核心算法之一,使用前导0/1预测算法得出的浮点运算结果中规格化移位的位数,对于改进整个浮点加法器中运算单元的运算处理性能具有重大意义
中医药信息化是继承和发扬中华医药的、一项具有深远意义的研究课题。中国传统中药材的识别鉴定方法简单,但过分依赖主观经验知识,错误判断率高;借助现代理化方法对中药材识
近几年来,人工情感技术得到了很大程度的发展,取得了许多研究成果,但距离人工情感进入寻常百姓家还有很长的路要走。本文立足于人工情感技术和Q学习算法(一种强化学习算法)的
合成孔径雷达(SAR)是一种不受天气、光照等各种外界环境影响,并可以对感兴趣的区域进行全天候、全天时侦查的微波探测传感器。自SAR研制成功以来,SAR成像技术得到了快速地发
频谱利用率和功率效率是无线通信系统面临的两个最严峻的挑战。多输入多输出(Multiple Input Multiple Output,MIMO)技术可以在不增加带宽和发射功率的情况下,明显提升整个系
HINOC是一种借助有线电视网同轴电缆,实现高性能双向传输的宽带接入解决方案。HINOC专注于最后100米的同轴宽带接入,经过十余年的前沿技术积累和关键技术攻克,HINOC技术已形
近几十年来,随着人造卫星和雷达技术的迅猛发展,如何设计天基雷达的天线波束灵活快速扫描,以更好地满足军事民事需求,成为了一个重要的研究方向。在天线综合领域,目前已有的
随着人工智能技术的兴起和发展,人工神经网络算法被广泛应用于数据挖掘、模式识别、图像检测、人脸识别等领域,并且在建模分析中取得了非常不错的效果。极限学习机(ExtremeLe
随着5G技术的发展和创新,网络资源数据量也呈现爆炸式的增长。智能终端产品的研发和供给,为移动电子商务(M-Electronic Commerce)的发展创造了良好的契机。移动电子商务推荐