论文部分内容阅读
随着Internet的普及和网上贸易的迅速发展,电子商务系统已成为人们网上购物的主要平台。在给用户提供更多选择和方便的同时,其结构也变得更加复杂和庞大,用户经常会迷失在大量的商品信息空间中,无法迅速找到自己所需的商品。这种情况下,推荐系统应运而生,它在电子商务系统中具有良好的发展空间和应用前景,已成为电子商务领域研究的一个重要内容。推荐系统是根据用户已有的评价信息或历史记录实现个性化服务的系统,向用户推荐其感兴趣的商品或信息。人们将数据挖掘中的各种技术应用于推荐系统的研究,取得了很多成果并且开发出一些优秀的推荐系统,极大地促进了推荐技术的发展。但是,现代电子商务系统中用户和项目数以万计,而且发展非常迅速,使得推荐系统面临一些困难和挑战,主要包括:推荐准确度、实时性要求、数据稀疏问题和可扩展性问题。协同过滤是目前应用最广泛的推荐技术。针对推荐系统面临的数据稀疏问题,本文提出了两种改进的基于聚类的协同过滤算法:基于项目平滑和聚类的方法,双向聚类迭代的方法。将用户和项目分别聚类,在与目标项目最相似的前若干个聚类簇中搜索它的最近邻居,可以缩小搜索邻居的范围,提高推荐算法的实时响应速度。基于项目平滑和聚类的方法中,利用聚类信息,对用户未评分的项目做平滑处理,使得用户-项目矩阵变得稠密,然后在项目聚类中寻找目标项目的最近邻居,在一定程度上可以解决数据稀疏对推荐精度的影响。双向聚类迭代的方法中,引入二部图概念来表示用户和项目之间的关联关系,对初始得到的用户聚类和项目聚类进行交叉迭代调整,使聚类簇达到较稳定的状态。调整后聚类簇的内聚性更强,类之间的区分度更大,这样也可以在一定程度上解决数据稀疏问题的影响,提高推荐的准确度。本文的实验采用标准的MovieLen数据集,用K-mean聚类法对用户和项目进行聚类,观察在不同聚类数目的情况下,类内距与类间距之比。然后考察本文提出的两种方法的MAE值(平均绝对偏差),并与其他一些传统的协同过滤算法的MAE结果相比较,来验证算法的有效性。实验结果表明,相比于其他一些传统的方法,两种新方法在效果和效率上都表现得较好,能够有效解决数据稀疏问题,提高推荐系统的实时响应速度。