论文部分内容阅读
随着网络的普及以及电子商务的飞速发展,信息资源呈爆发式增长,用户在海量资源中快速而准确得找到自己喜欢的信息或商品变得越来越困难。为了解决这个问题,便产生了推荐系统。推荐算法一直是推荐系统的核心技术。目前,协同过滤推荐算法是众多推荐算法中应用最成功且最广泛的推荐技术。它主要根据用户留在网上的评分进行推荐。然而在实际应用中,由于用户数据和项目数据规模相当庞大,且用户对自己接触过的项目评分数量又非常有限,从而导致了严重的数据稀疏性问题,该问题是导致传统的协同过滤推荐算法推荐精度较差的主要原因之一。本文试图站在统计学的角度,针对数据稀疏性问题对协同过滤推荐算法进行研究。实现了基于描述性统计的简单推荐,并探究了将统计量填充、聚类分析、矩阵分解等方法应用到协同推荐算法中的效果。在详细分析了数据稀疏性问题的起因以及对协同推荐的影响途径基础上,本文提出了采用统计量填充的方法缓解数据稀疏性问题,进而用K-Means聚类方法对用户进行聚类,根据轮廓系数确定用户类别数,对每类用户的缺失评分使用同类别的评分统计量作为固定值进行填充。除了固定值填充缺失评分外,本文还采用奇异值分解(SVD)降维技术实现评分预测,利用预测评分对原始矩阵进行填充,形成新的用户—项目评分矩阵,再进行协同推荐。最后从推荐过程修正的角度出发,对传统的用户间相似度计算采用加权的方式进行改进,提出了基于用户偏好相似度与用户评分相似度进行加权计算用户间相似度的方法。采用MovieLens数据集对上述方法进行实验,通过平均绝对偏差(MAE)比较不同方法对推荐算法的改进效果,算法过程主要采用EXCEL,R语言辅助编程实现。实验证明,本文提出的方法均能在一定程度上缓解数据稀疏问题,从而提高推荐质量。统计量填充、聚类、相似度计算等都属于统计学中的基础方法,考虑将统计学方法应用于推荐领域,不应该只注重于繁杂的模型,将基础的统计方法加入到推荐算法的研究中来,也能够有效得解决推荐算法所面临的问题。在未来发展中,统计学方法将会应用于更多领域,获得更长足的发展。