论文部分内容阅读
互联网技术的迅速发展使得大量的信息爆炸式的呈现在大众面前。信息爆炸会降低信息的使用率,也就是所谓的“信息超载”。个性化推荐,包括个性化搜索是当前研究的热门领域,它可以很好的提升用户体验,从而提升企业营销。通过相关的机器学习及数据挖掘技术,推荐系统挖掘用户的购买倾向,将用户可能感兴趣的商品推荐给用户。个性化推荐系统通过对用户信息或者商品信息建模,利用相关的数据挖掘算法计算出用户可能感兴趣的商品,并融入其他算法进行筛选、优化,来进行个性化推荐。一个良好的推荐系统可以挖掘出用户潜在的消费偏好,为不同的用户提供针对性的服务。在本论文中,针对海量大数据这一需求背景,提出了基于协同过滤以及基于内容的组合推荐算法搭建的个性化推荐引擎模型,并尝试性的融入了基于文本相似度的热点推荐。该模型是针对大数据推荐所面临的问题而提出的,它包括离线数据计算与在线推荐两个主要模块。离线数据计算模块被用于离线计算用户初始的偏好商品列表,在线推荐模块被用于实时分析用户的行为,进而优化筛选离线计算的推荐结果,最终将最优的结果推荐给用户。两者结合可以提供完整,动态的推荐服务。接着深入分析了传统协同过滤算法的弊端,提出了一种组合推荐的方案进行改进,最后通过国内某电商的真实数据集以及MovieLens数据集进行仿真实验,论证改进的合理性。在上述改进算法的基础上,本文实现了一种适用于大数据环境的推荐引擎平台架构模型。具体搭建过程采用了现在最流行的分布式大数据框架Hadoop,以及机器学习框架Mahout,并对Mahout中的基于项目的分布式协同过滤算法的改进方案进行了实现。本系统在设计时遵循面向对象的设计原则,兼顾了系统的性能,API透明化等。最后,通过对关键性能的用例测试,确保了推荐平台的性能需求。