论文部分内容阅读
随着互联网和科技的发展,大众信息数量成爆炸式增加。特别是手机的发展,促使每个人都离不开手机,例如手机上的购物平台,使得使用者随时随地都可以上网购物。当然也产生了大量数据。那么,在电商平台上数量众多且稀疏性的数据中发掘具有价值的数据,显得尤为重要。推荐系统对分析电商平台数据的有效性和合理利用具有非常显著的优势。现在的推荐系统逐渐趋于成熟,但这些系统都是着力解决关于热门商品的推荐,而忽视了冷门商品的推荐。整个商务平台的商品类型分为热门商品和冷门商品,冷门商品虽然具体的商品用户少,但是总的购买数量却可以和热门商品的购买量大致相当。同时由于冷门商品不可能直接陈列在电商平台主要的推荐页面上,导致了针对冷门商品的个性化推荐必不可少。首先,本文对冷门商品进行一个总结性介绍,包括冷门商品的概念,冷门商品具有的特点,以及针对冷门商品的推荐系统应该具有的特性。只有对冷门商品进行彻底的深入分析和研究,才能使得改进后的推荐系统具有较强的针对性。然后,将现在电子商品平台常用的一些推荐系统做了简单介绍,特别是协同过滤系统,并且比较了不同类型协同过滤算法的优缺点。其次,提出聚类分析将用户进行分类和基于物品的协同过滤算法的改进。一方面计算用户对物品喜好程度时,对用户隐形反馈信息的合理利用方面。不是平等地对待各类用户隐形信息,而是针对不同类型的信息,赋予不同的比重,体现出用户信息类型对计算用户偏好时的重要性。另一方面是对物品相似度算法的改进。例如,消除热门商品的影响并且保持算法的有效性,不至于是新用户时结果趋于无穷。最后,利用真实的阿里巴巴电子商品平台的相关数据,进行实例分析研究。主要采用覆盖率和准确率两个评价指标对结果进行分析说明,对改进推荐算法的性能进行评价。本文针对冷门商品推荐系统存在的用户信息稀疏和现存推荐算法没有考虑到热门商品对冷门商品的影响问题,故提出改进的推荐系统。采用聚类分析中的K均值聚类对用户进行大方向的划分,进而缓解冷门商品用户评分矩阵的稀疏性。其优点是K均值聚类运算速度快,面对电子商品平台快速更新的信息具有不错的应对能力,同时随着信息的更新可以不断改变聚类的族中心,缓解了新用户导致的可扩展性问题。改进的推荐算法是在基于物品的协同过滤推荐算法的基础上改进的。因为经常使用电子商品平台的用户往往不喜欢主流商品的推荐,更多的是推荐他们感兴趣的物品,所以基于物品的协同过滤算法是个不错的选择。基于物品的协同过滤算法计算用户对某商品的偏好程度时,采用用户隐形反馈信息如购买、收藏、加购物车、点击,不是平等对待不同的信息而是利用对比标度赋权法计算相应的权重,使得计算结果更加贴合实际情况,准确估计出用户的喜好。同时改进计算物品相似度的公式,尽量消除热门商品对推荐结果的影响,也避免了某些冷门商品新用户导致公式分母为0的结果出现。覆盖率对推荐结果进行分析评价,因为覆盖率高的推荐系统给出的推荐列表中,商品品种多而且这些商品以往很少进行推荐,故该推荐系统具有很强的冷门商品发掘的能力。准确率可以表明预测与真实情况的差异情况,体现出了推荐系统的精确性。因此主要利用覆盖率、准确度作为评价推荐系统的指标。根据真实的电子商务数据做交叉验证,得到的指标结果显示,虽然准确率较其他推荐系统没有太大的提高,但是覆盖率具有较高指标。由于覆盖率说明推荐系统给出的商品的流行度,进而体现出本文的推荐系统具有比较好推荐冷门商品的能力。