论文部分内容阅读
我们每天都在创造、传递和接收信息,信息在当代正处于空前膨胀的状态。面对处理如此海量的数据所带来的问题,专家学者和业界都在进行相关研究,其中重要的两个方向就是云计算和推荐系统。云计算在存储和处理海量数据上具有它强大的优势。同时它将存储资源和计算资源通过服务的方式提供给用户,并按用户的需要弹性地分配服务性能。通常我们通过购买计算机硬件和软件来获得计算机带给我们的便利。然而当我们不使用计算机或者仅使用了计算机的少部分系统资源时,计算机处于闲置的状态。这是一种资源浪费,不但是我们消费大量金钱购置了无法充分使用的资源,同时由于制造出来的大量计算机的闲置也是对环境造成破环,尤其是淘汰的旧计算机更是一种环境污染。而云计算改变了我们对计算机的观念,我们需要的并不是计算机的硬件或软件,我们需要的是一种IT服务。因此在云计算充分发展时,我们不需要购买计算机硬件和软件,只要按需购买云计算提供的IT服务,我们可以通过任何可用的终端访问云端服务。众多IT界领先的大公司参与到云计算的研究和研发中,包括IBM、Google、微软、苹果公司等等。其中Google公司提出的云计算在文件系统、编程模型和关系数据存储三个方面的技术理论:GFS、MapReduce和BigTable对云计算发展具有指导性的作用。在此理论基础上很多公司和组织对云计算进行了技术实现,其中最重要的是Apache基金会的开源实现Hadoop。推荐系统能够帮助用户从大量信息中发现其感兴趣的内容。推荐系统的推荐方法包括基于内容的推荐、基于协同过滤的推荐和基于知识的推荐。基于协同过滤的推荐系统是当前常用的推荐方式,它通过找到和你趣味相投的用户来向你推荐他们也喜欢的项目。它更体现出在互联网时代人们之间的群体智慧。推荐系统和云计算二者之间有着天然的互相作用和影响的潜力。当代业界的推荐系统的数据来源常常是上百万乃至上亿级的数据记录,这对系统如何存取这些数据以及如何快速计算出推荐结果都提出了更高的要求,云计算技术的产生为这些问题提供了答案。在未来的IT发展中,云将成为一切计算任务的原动力和存储场所。为了能够在云计算平台上实现高效、优质的推荐系统,本文对推荐系统和云计算技术的研究现状进行阐述,重点对基于项目协同过滤的推荐算法和基于关联规则挖掘的推荐算法进行研究分析,参考Google云计算编程模型的一些改进原则,得出自己的基于MapReduce的项目协同过滤和关联规则的推荐算法的改进算法,使得算法可以在Hadoop平台中运行。本文通过让算法适应云平台,使得推荐系统具有很强的并行计算能力以及容错性和可扩展性。