论文部分内容阅读
信息检索是获取互联网信息的重要方式,在这个阶段,人们能够检索到信息,但却需要自己去鉴别信息的有用性。个性化推荐系统是在大数据时代,机器通过分析用户的个人喜好以及在互联网上留下的个人历史口迹而进行的有针对性的信息投送技术。推荐系统目前在电子商务,音乐服务,电影服务业都有比较成熟的应用。但就现阶段的成熟性而言,推荐系统在系统架构与算法研究上都还有很多值得深入研究的内容。冷启动是推荐系统中与生俱来的核心问题之一,由于用户或物品的新加入从而导致推荐系统无法学习用户或物品的个性化特征,也因此导致推荐系统无法针对此用户或物品提供恰当的推荐建议,传统上基于人口学冷启动推荐又往往在整体可扩展性,计算效率上存在比较大的问题,且存在长尾效应。如何解决这些问题,本课题提出了基于聚类与信息检索的方式,给出了这些问题的优化方案。大数据处理是应对海量数据的基础架构,本课题中我们讨论并给出了通用的针对基于内容推荐,基于协同推荐的通用设计方案,以及课题提出的冷启动方案的大数据处理设计方案。SlopeOne是协同过滤算法中一种十分简单且高效的推荐算法,算法需要依赖大量的用户的评分,且如果要得到推荐结果,算法还需要大量的对待预测项目的评分,也就是算法本身也存在冷启动问题,对于第一点,算法需要依赖大量评分信息,本课题设计了基于大数据处理平台Hadoop的SlopeOne算法实现与优化方案,方案对SlopeOne的增量计算特性进行了分解设计,并且对于可能出现的内存溢出问题进行了相应的设计。对于第二点,冷启动问题,我们充分利用了我们课题中的第一部分内容,我们把SlopeOne的数据集分为两类:训练数据集与测试数据集,训练数据集是已经存在的真实历史记录,而测试数据集是通过冷启动生成的具有适当评分的数据集,首先我们是想解决SlopeOne的稀疏性问题,因为待预测项目如果没有任务评分信息,SlopeOne无法计算预测评分。其次,在大数据处理过程中,核心是如何对已经存在的历史记录建模,而用户对于待预测的项目也是有一定的要求,而冷启动方案中可以很好的提供这些用户具有要求的项目,这对于计算预测可以减少可观的数据量。