论文部分内容阅读
在协同过滤推荐系统中,商品被视为特征,用户对他们购买的商品进行评分。通过对用户评分的学习,推荐系统可以向用户推荐他们可能需要的产品。然而电子商务网站中,通常有相当多的产品。如果在推荐前要对每一件商品都进行考虑,推荐系统将是非常低效的。聚类算法在近几年在推荐系统中也得到了很多关注,因为聚类本身固有的优点,它可以在很大程度上解决数据维度的问题。本文针对ItemRank算法的特点,结合聚类算法的优点,提出了一种改进的ItemRank算法IRSCC,它能有效的提高ItemRank算法的执行效率。本文提出的改进算法是利用自构建聚类算法来减少商品数量相关的维度,然后直接在聚类上运行推荐算法。最后,对推荐聚类进行变换得到推荐商品列表推荐给不同的用户。我们所提出的方法在计算推荐商品时所需的时间大大减少。实验结果表明,在不影响推荐质量的前提下,推荐系统的执行效率得到了有效的提升。本文提出的改进算主要是在以下几方面进行了研究工作:(1)通过研究分析ItemRank算法的优缺点,然后针对ItemRank算法的缺点,利用聚类技术进行改进。参考了当前比较好的聚类算法,排除了K-means等对用户负担较大的、算法比较耗时的聚类算法,最后利用文本挖掘里面的自构建聚类算法来对ItemRank算法进行改进,得出了IRSCC算法,此算法那不需要提前设定聚类的个数。(2)本文提出的改进算法IRSCC主要有五个步骤:首先为了方便对商品进行降维,我们为用户分配类标签,将相似的用户聚类到同一聚类中,不相似的用户聚类到不同的聚类中,最后同一个聚类中的用户拥有相同并且唯一的类标签。并且在标记标签时,我们消除了用户评分尺度对推荐结果的影响。随后利用SCC算法对商品降维。在降维前,我们先利用了Jiang等人提出的方法,对数据进行构造符合降维算法特征的特征模式,然后再进行降维处理,压缩原始数据集。其次利用降维后的数据集创建商品类的关联图,此步骤跟ItemRank的第一步思想一样,但是对其进行了调整。然后利用随机游走策略得到向用户推荐的商品类。最后将推荐的商品聚类列表转换为商品个体列表,然后推荐给用户。(3)对改进算法利用业界承认,并得到广泛使用的实验数据集进行了实验仿真与测试。然后把实验结果与ItemRank算法,以及一些其他也利用降维技术的算法的结果进行对比。利用实验结果验证本文提出的改进算法的合理性、有效性。最后,本文的实验结果证明了本文提出的改进的ItemRank算法IRSCC,在不损坏推荐质量的前提下,有效地提高了ItemRank的执行效率,并且也比其他聚类技术的推荐算法执行效率高。而且,对实验结果进行了详细的分析。对比算法执行的效果,分析了实际提升值与理论提升值之间差距的原因。