【摘 要】
:
协同过滤算法在推荐系统中有着广泛应用,但是该算法在一些实际应用场景下忽略了用户对项目的评分中所隐含的共同喜好,以及项目间的评分均值的差异对最终的项目间相似度的影响。本文首先以解决上述问题为目标,对传统的相似度计算公式进行改进。然后以提高基于项目的协同过滤推荐算法的执行效率为目标,针对传统协同过滤推荐算法近邻搜索时间过长的问题,引入聚类算法来缩小最近邻居集范围,设计了一种融合聚类及相似度的协同过滤推
论文部分内容阅读
协同过滤算法在推荐系统中有着广泛应用,但是该算法在一些实际应用场景下忽略了用户对项目的评分中所隐含的共同喜好,以及项目间的评分均值的差异对最终的项目间相似度的影响。本文首先以解决上述问题为目标,对传统的相似度计算公式进行改进。然后以提高基于项目的协同过滤推荐算法的执行效率为目标,针对传统协同过滤推荐算法近邻搜索时间过长的问题,引入聚类算法来缩小最近邻居集范围,设计了一种融合聚类及相似度的协同过滤推荐算法CS-CF。为了进一步提高推荐系统的实时性和可扩展性,本文借助主流的大数据平台Spark在迭代计算以及内存计算方面的优势,设计了CS-CF算法在Spark平台上的并行化方案。该方案通过合理利用RDD并行化计算的特点、RDD的缓存机制以及Spark中的广播变量,实现了对项目间相似度计算过程和评分计算过程的并行化。最后,利用MovieLens公开数据集对CS-CF算法的并行化方案进行性能测试,并开发了一个电影推荐原型系统,将CSCF算法应用于其中,检验研究成果的可用性。实验及应用结果均表明:本文所设计的融合聚类及相似度的协同过滤推荐算法CS-CF及其在Spark平台上的并行化方案在准确性、时效性和可用性方面均有较好的表现。
其他文献
三角教科书中,通常是借助直角坐标系中两点间的距离公式先建立起两角和的余法公式,进而得到两角和的正弦公式。然后通过等式相加减导出积化和差公式,最后用角的代换得到和差
目的:家人罹患骨肉瘤疾病对病患照顾者是一种创伤,本研究拟通过对骨肉瘤病患照顾者创伤后成长(Posttraumatic Growth,PTG)的现状描述,以及影响其成长水平相关影响因素的探索,
半个世纪以来,民间外交以其灵活多样的方式和独特的风格,为新中国外交和对外经贸合作铺路架桥,从而为新中国开拓外交阵地,为我国改革开放、营造良好的国际氛围作出重要贡献。
随着电子商务的蓬勃发展,服装类商品对电子商务平台的依赖越来越明显。然而面临诸多资源,消费者很难挑选出合适的衣服,大多数服装的订购仍然处于“以人凑衣”的状态。为满足
为统筹河南省城乡协调发展,加速推进城乡一体化建设,从经济增长、收入分配、人口结构和生活质量4个方面构建评价指标体系,运用主成分分析(PCA)对河南省城乡协调发展水平进行测
随着移动通信技术的快速发展,对作为选频器件的腔体滤波器提出了更高的要求,使其往着小型化、高选择性、低损耗、便于调谐与装配、低成本等方向发展。腔体滤波器在很多微波系
陆空通信是实施空中交通管制的重要手段,也是民航空管运行中造成不安全事件的重要因素之一。提出针对陆空通信危险识别与分析的系统参量和引导词,应用BPMN和HAZOP模型识别与
泛在电力物联网建设一个重要方面便是实现更多终端小微设备的接入,使得数据的获取更加海量和多元化,实现数据流和能量流的深度融合,而综合能源系统是泛在电力物联网价值的重
目的:对危亦林《世医得效方》治疗脾胃病用药进行数据挖掘,探讨旴江医家危氏治疗脾胃病用药特点。方法:选用Excel软件建立中药性味、归经、功效数据库,运用“IBM SPSS Statisti