基于Spark的推荐系统的设计与实现

被引量 : 0次 | 上传用户:Johnson_Gu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代背景下,信息过滤是人们必须面对的问题。对于用户不明确或难以表达的需求,推荐系统通过分析用户动态及静态数据,更加主动、智能的过滤信息,从而向用户展示他们潜在需要的东西。这一特性使得推荐系统在电子商务,社交网络等领域有着重要的作用。由于要过滤海量信息,推荐系统面对的数据往往是规模巨大的。为了快速响应用户需求,推荐系统需要有大数据处理能力。目前这一领域的框架有很多,其中Spark是最新一代的计算框架,大数据处理能力很强,将Spark用于大数据的离线和在线计算将大大提高推荐系统的运行效率。本文先介绍立论的相关背景,然后深入探讨大数据处理技术,包括分布式计算框架Spark,分布式文件系统HDFS,列式文件类型Parquet等。同时介绍推荐系统的一些算法及应用。结合大数据处理技术,本文设计并实现了一个推荐系统,详细阐述了其主要功能的实现方法。本论文的主要贡献有:1)设计并实现了一个高效的数据仓库,作为原始数据及推荐引擎离线计算结果的存储仓库。该仓库能够大大提高推荐系统离线及在线计算效率;2)基于Spark编程模型实现了三个推荐算法的并行化,并进一步设计实现了三个推荐引擎。这些引擎能够很好的与底层数据仓库融合,同时其基于Spark的设计大大减少了离线及在线计算时间;3)设计一个混合推荐模型以统一各推荐引擎的结果,并能根据用户的选择自动调整各引擎的权重,从而实现更加个性化的推荐。
其他文献
在工程技术和管理方面的跨国交流与合作是国际合作领域中最普遍和最重要的合作现象之一。中国与外国在该方面的合作由来已久,并且随着中国经济的快速发展和进一步开放,工程技
对近代汉字的研究一直是文字学研究的薄弱环节,而对隶楷阶段的形声字义符进行系统的研究方面,至今仍然是个空白。本文试图通过研究隶揩阶段形声字义符的变异情况,总结概括隶
语言是人们相互间交流思想不可缺少的一种交际工具。能够充分表达人的思想感情,它不同于手势、结绳、号角声、烽火传信等交际手段。早在雅鲁藏布江流域,诞生了藏族的祖先,同时产
目的对患者关节液有形成分及细胞图文报告的研究可促进临床对关节液细胞形态的重视。方法用抗凝处理的关节液经离心浓缩,取沉渣推片、瑞特-姬姆萨混合染色后制作图文报告。结
<正> 建国初期,我国实行公费、劳保医疗为核心的医疗保健制度。经历几十年的实践之后,现行的医疗保健制度暴露出许多明显的弊端,对国民经济和医疗体制的长远、健康发展显示出
现代汉语“对”字结构由介词“对”和“对”介引的成分X构成。“对”以介引名词性成分为常,也介引谓词性成分,但不多见。在“对+X”格式下,谓词和体词的对立得到了中和。“对
对隐喻和转喻的研究最早可以追述到亚里士多德时期。在很长一段时间里,隐喻和转喻只是当作增强语言美感的修辞手段。随着二十世纪八十年代以来认知语言学的兴起,认知语言学家把
研究了NaOH、水玻璃激发矿渣砂浆在5℃环境下抗压强度的发展,采用电阻率、选择性溶解法、压汞法(MIP)和扫描电子显微镜(SEM)分析了碱矿渣胶结材(AAS)低温水化过程及其早期微
本文以克尔凯郭尔、尼采和维特根斯坦为例,探讨了叔本华与西方现代哲学的关系。克尔凯郭尔和叔本华一道批判了传统的理性主义和基督教神学,开创了现代人本主义。尼采通过将叔
选聘高校毕业生到村任职,是加快社会主义新农村建设的现实需要。面对建设社会主义新农村这一重大历史任务,大学生村官计划的实施取得了很大成效,同时也存在一些需要解决的问