论文部分内容阅读
随着互联网的发展,信息过载的时代到来,能解决该问题的推荐系统得到了广泛的研究和应用。其中协同过滤推荐在电子商务领域的应用最为广泛,但是随着近几年参与网上购物的用户数的暴增,以及商品的多样化的发展,协同过滤推荐系统需要面对的数据量成线性增长,此时传统的协同过滤推荐算法面对如此大的数据量可扩展性和实时性的问题开始突显,算法运行时间变得过久,无法为快速响应用户的最新需求;或者算法无法运行如此大的数据量,因而无法推荐。此时增量的协同过滤算法得到研究,该算法仅使用增量数据和部分相关原数据来动态更新相应的算法因子,因而计算时间大大缩短,能较好的应付大数据量,并且拥有较好的实时性。本文首先对相似度进行了改进,在实验的基础上优化了推荐预测阶段的K近邻算法,同时对增量协同过滤算法进行了并行化的改进。主要研究工作包括如下四个方面:①对推荐系统的发展现状、系统分类、评测指标及相关技术进行了介绍,并重点介绍了协同过滤推荐算法、分类、比较、及其存在的问题。②接着介绍了增量算法中使用的GDC相似度,并在这个相似度的基础上提出了修正的GDC相似度,实验表明该相似度能进一步提高算法的准确度,并且使最优K近邻的值较小。③提出了优化的K近邻算法,在基于项目的协同过滤算法预测评分阶段,在预测某一用户的未评分项目时,最优K近邻的值和该用户的已评分项目个数P相关,通过在已评分项目个数上乘上一个因子g属于{0.1,0.2,…,1.0},使K=P*g,我们得到优化的K近邻算法,实验表明该算法在选定一个较优g值时系统的准确度较稳定,系统数据量的增加对准确度的影响很小,而不像传统的K近邻,最优K值随数据量变化而变化。④介绍了增量协同过滤算法的处理过程,包括因子分解,因子更新,因子组合推荐。并在该算法的基础上对因子更新阶段进行了并行化改进,通过多线程使因子更新阶段实现并行化。实验表明,该算法能显著降低系统的运行时间,提高了系统的实时性,提高了系统的可用性。