论文部分内容阅读
随着互联网的快速发展,信息呈爆炸式增长,用户逐渐由信息匮乏时代迈入了信息过载时代——过量信息反而使得用户无法找到自己需要的信息。为了方便互联网用户快速查找到所需信息,研究者提出了很多方法:门户网站,相对专业的信息源;分类目录,对热门网站分门别类;搜索引擎,只需输入关键词就能找到所需的信息。但用户需求不止于此,用户很多时候并没有明确信息获取指向,个性化推荐技术以其能够过滤大量用户不感兴趣的内容,帮助用户发现自身潜在喜欢的内容,得到了广泛应用。随着个性化推荐在电子商务领域大放异彩,个性化推荐技术逐步应用到其他领域,比如个性化新闻推荐。互联网步入到大数据时代,也给个性化新闻阅读发展提供了良好的机遇。新闻个性化推荐系统在理论研究中取得了长足进展,但仍有很多问题亟待解决:可扩展性问题、时效性问题、冷启动问题、数据稀疏性问题等,因此高效可扩展的个性化新闻推荐系统是论文的研究重点。本文的主要工作为:1.提出新的相似度计算方法,结合行为相似度和内容相似度,解决了传统相似度计算方法计算不准确或无法计算的问题,解决了协同过滤推荐数据稀疏性问题。2.提出新的适合个性化新闻推荐的可扩展聚类方法,更改了中心点选取方式和距离度量方式,使得新闻推荐系统的可扩展性大大提高。3.在个性化新闻推荐系统相似度计算阶段和最终推荐阶段融入了时间因素,保证了所推荐新闻的时效性。4.基于MapReduce模型实现整个协同过滤新闻推荐系统,使得个性化新闻推荐系统能够并行运行,可扩展性大大提高,适应了海量新闻和海量用户的个性化推荐需求。5.对聚类方法和个性化新闻推荐方法进行了实验,确定了相关参数,对最终基于协同过滤的个性化新闻推荐系统进行了功能测试,验证了推荐系统相关功能。论文首先分析了当前个性化推荐技术的研究现状和Hadoop云计算平台,阐述了论文提出的个性化新闻推荐的聚类方法和基于多维相似度的个性化推荐算法,最后给出了基于MapReduce模型实现的新闻推荐系统,并给出了详细的测试和评估结果。