基于赋权评分和Dpark的分布式推荐系统研究与实现

来源 :天津理工大学 | 被引量 : 1次 | 上传用户:eponvlan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各种社交网站的兴起,用户越来越频繁地参与网络互动。互联网上的信息不再只由网站编辑提供,用户也开始提交各种信息。推荐系统的出现,使得用户面对爆炸式增长的信息,不再盲目地查询,而是由系统主动向用户推荐其可能感兴趣的内容。经过多年研究与发展,协同过滤推荐算法已经成为应用实践中,较为成熟的推荐技术。它的主要思想是利用已知用户群的过往行为或评分来预测当前目标用户可能感兴趣的物品。本文提出的算法以传统协同过滤推荐算法为基础进行改进。传统的协同过滤推荐算法中,用户评分作为计算物品相似度的依据,进而预测推荐结果。但是同一用户对于不同物品的评分相同,不能充分说明这些物品之间具有相似性,并且会降低非流行物品在推荐过程中的影响力。为了提高物品相似度计算的可靠性,本文在传统算法的基础上,根据对应评分人数所占物品评分总人数的比重,对物品评分进行赋权,提出基于赋权评分的协同过滤推荐算法。实验结果表明,相比传统的物品相似度计算方法,该方法充分考虑了非流行物品的影响力,有效地提高了推荐的精准度。由于需要存储并处理海量用户数据,单机运行环境已经无法满足上述要求。本文使用分布式计算框架Dpark来实现该推荐系统。Dpark将用户数据存储在多个文件服务器上。Dpark是新一代分布式计算框架,更加高效,并且提供了丰富的Python调用接口,方便程序使用迭代的方式进行计算。为了验证本文所设计算法的有效性以及所实现推荐系统的计算性能,本文使用Movie Lens真实测试数据对推荐系统进行了测试。实验结果表明:本文所设计算法可在提高非流行物品影响力的基础上,有效改善推荐精准度;同时采用分布式计算框架实现的推荐系统可以承担海量数据的处理,从而提高了用户的交互体验。
其他文献
目前没有确认有效的抗病毒治疗方法.研究发现2019-nCoV是一种正链包膜β-冠状病毒,与严重急性呼吸系统综合征(SARS)和中东呼吸系统综合征(MERS)病毒类似.因此,应用已有的SARS
期刊
随着分布式技术和网络技术的不断发展,计算机安全的形势也变得日益严峻。在进行信息共享和资源访问的同时,必须兼顾到系统的安全性,而访问控制正是一种通过约束用户访问行为
报表是管理信息系统中的重要组成部分,随着社会信息化要求的提高和信息可视化技术的发展,复杂报表呈现出数据来源不同、数据结构各异、数据内容多变、报表样式多样等特征,传
目的:探讨不同浓度的百草枯(PQ)诱导人胚肺成纤维细胞纤维化(MRC-5)构建细胞纤维化模型.方法:运用CCK-8 (cellcountingkit-8)法检测不同浓度的PQ对MRC-5细胞的毒性,以测得的
目的:探讨氯沙坦在减轻百草枯诱导人肾小管上皮细胞损伤的机制和效果.方法:体外培养人肾小管细胞并将其分为对照组、实验组和干预组,以CCK8方法测得百草枯和氯沙坦的半数有效
近年来,随着信息技术的普及,大量的数据在源源不断的产生、处理和存储,因此,庞大的需求对存储技术的要求也越来越高。非易失性内存作为新兴的存储技术,以其高访问速度、高存储密度
创新与扩散理论是传播学研究的经典理论之一,在今天传媒不断发展的情况下,尤其是社交媒体的诞生以及广泛使用,使得创新扩散理论有了新的变化和发展.本文基于对社交媒体时代创
针对目前点钞实训课出现的问题,结合多年的教学经验,笔者提出了一些方法与对策,以期望能帮助学生耐心、细心地学习点钞,从而得到更好的教学效果.
协同场景编辑系统逐渐成为CSCW领域研究的一个热点,它能支持多人高度并行的协同编辑工作。如何保证数据的一致性并解决并发工作时产生的冲突是协同场景编辑系统的一个关键问
新时期伴随着媒体的发展,我们每个普通人都可能成为热点新闻的主角.而新时期基层人物的新闻报道也成为了一种题材,新闻工作者要深入基层,了解普通人物感人的故事,写他们的喜