协同过滤算法及其并行化研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:xwy_pk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在电子商务的应用中,协同过滤算法是一种很实用也很简便的方法。通过一系列具有相同的体验或者偏好的用户群体的经历来为特定用户进行推荐。每一个个体对于推荐的结果给予一定的回应和评判,这些反馈结果同样也被拿来用到对于其他用户的咨询筛选过程中。然而,面对越来越大的数据集,传统的方法往往很难奏效。大规模的数据需要大量的内存以及很高的运行时间,传统的方法会因此遇到效率上瓶颈。因此,很需要更高效更快速的方法来使其更好的付诸的实际应用,算法的并行化就是一个很好的手段。本文通过基于Hadoop的MapReduce方式来实现协同过滤算法的并行化。针对基于内存,基于聚类以及基于潜在语义的协同过滤算法的各自特点,对其经典实现和应用作出并行化的处理。对于基于项目的协同过滤算法,本文以两大类四种方式对其进行实现,并阐述了每一种实现方式所出现的问题以及相应的改进方式。基于MinHash的协同过滤算法,是基于聚类的协同过滤算法的典型实现。本文以其并行化的方式为例,阐述了为其他聚类算法的并行化的实现模板。基于潜在语义的并行化算法,主要针对其核心步骤的EM过程进行并行化。通过E对应Map,M对应Reduce以及EM作为一个整体在Mapper端进行并行化这两种方式,对其进行了并行化实现,并各自分析了相关的优劣以及原因所在。通过以上的研究,我们总结分析了协同过滤算法其并行化各自的方式,特点以及优劣。在实际应用中,可以根据数据,效率以及准确率的需求,来灵活的作出对应的选择。
其他文献
鉴于微博媒体方式的流行,越来越多的用户使用微博进行社交交互,有必要在呼叫中心里集成微博。呼叫中心的客户大都是政企单位,这些单位使用呼叫中心系统对外提供业务服务,承载