论文部分内容阅读
随着互联网技术、电子商务网站和移动互联网的蓬勃发展,电子商务网站中的商品数量、用户出现了快速增长的趋势。当电子商务网站面对不断增长的用户和商品时,如何从海量数据中挖掘出有用的信息,如何提高用户忠诚度和商品销售量是电子商务网站面临的一个严峻问题。机器学习和推荐系统能够有效的解决这一问题。在推荐系统中,协同过滤推荐技术作为最典型的推荐技术被广泛应用。它能够根据用户的偏好、兴趣对用户进行个性化推荐,但是,协同过滤推荐算法也存在一些问题,例如可扩展性、冷启动、数据稀疏性问题等。可扩展性问题是由于随着数据量的增多,推荐系统的开销逐渐增大,系统的时间和空间复杂度会越来越大。数据稀疏性问题的主要原因是用户的行为数据存在较大的稀疏性导致协同过滤算法的准确度较低。为了解决上述问题,本文提出来一种基于Spark下机器学习的混合推荐算法,该混合推荐算法可以有效的提高推荐效果的准确性,最后将该混合推荐算法应用在了服饰电商网站中。在传统的推荐算法中,单机在处理海量的用户行为和商品数据时需要耗费大量的时间,单机算法的并行化可以解决这一问题。本文将设计的混合推荐算法应用到基于Spark平台的集群中,并实现了混合推荐算法在集群中的并行化和优化,不仅解决了计算效率问题,也解决了扩展性问题。接着,本文设计了一个服饰电商系统,该系统包括了用户、商家、系统管理员四种角色,用户具有购买服饰、管理订单、查看购物车、对购买服饰评分等功能;商家可以添加服饰商品、管理图库等功能。然后将本文设计的混合推荐算法应用到该服饰电商系统中,根据用户的历史行为数据将用户可能喜欢的服饰推荐给用户。实验表明,本文提出的基于机器学习的混合推荐算法能够有效的提升推荐结果的准确性。特别地,该算法基于Spark平台,更适合大量的迭代计算过程和处理海量数据,算法在运行速度上更有优势,而且有更好的扩展性。