论文部分内容阅读
近年来,随着信息技术的发展,特别是移动互联网及物联网技术的应用,数据呈现出爆炸式的增长态势,人类社会进入大数据时代。大数据不仅数据总量大,而且数据增长快。大数据在带来挑战的同时,也带来了机遇,因为随着社交、移动等新数据源的兴起彻底打破了原有数据源的局限性,使得人们从海量数据中分析人类行为习惯等成为可能。在此背景下,推荐系统应运而生,并随着电子商务和Web2.0的发展而不断壮大。由于其具有巨大的经济效益,推荐系统在商业上的应用越来越普及,与此同时,学术界也对其进行了广泛而深入的研究。研究至今,学术界已提出多种推荐系统。其中包括基于内容的推荐系统,基于效用的推荐系统,和协同过滤式推荐系统等。在这之中,协同过滤推荐系统因其推荐精确度高,自动化程度高等优点,应用得最为广泛,研究得也最为深入。人们在对协同过滤算法的研究过程中,发现协同的推荐算法在应用过程中存在一些问题,可扩展性问题就是其中一类较为突出的问题。随着数据量的增长,可扩展性问题直接影响推荐性能,而推荐性能不仅直接影响销售量,而且间接影响客户满意度。因此,为了提高经济效益,商业界和学术界对此都进行了大量的研究和探索。受技术影响,之前的研究主要局限于降低算法的计算要求,但由此却带来推荐性能的损失。鉴于近年来,云计算技术的兴起,高性能的计算能力已经不再像过去那么遥不可及。为此,本文在前人研究工作的基础上,在以下方面进行了研究。1.研究协同过滤算法实现的不同模型,以及不同模型下面的实现算法,并在此基础之上,研究协同过滤的关键性问题,可扩展性问题。2.研究前人解决可扩展性问题的思路和方法,并在此基础之上提出了一种基于降维和分布式计算相结合的解决方案。3.阐述了降维概念,并描述了基于SVD的降维方法。4.以协同过滤算法中两类代表性的算法——基于KNN的协同过滤算法和基于Slope one的协同过滤算法为例,介绍协同过滤算法在分布式下改进的可行性,并在开源框架Map-Reduce上实现算法的分布式改进。