论文部分内容阅读
随着社会不断进步,互联网信息量呈指数增长,用户获取需要信息的途径愈加困难。作为近几年新兴的一种轻量级互联网应用服务,Web API服务可以构建面向各种客户端的服务,并且可以自由复用及组合,使用户更加轻松的使用各种功能。随着Web API服务逐渐被公众所使用,如何帮助用户更加快速地寻找与其需求相匹配的服务成为难点。推荐系统的出现解决了这个问题,但是使用传统推荐系统在Web API服务的数据量和用户量逐渐增加的情况下,会对推荐系统造成巨大压力。基于Spark的计算框架被广泛应用于海量数据的处理,并为面向海量Web API服务推荐系统的研究提供了新的机遇和挑战。本文的主要研究内容是针对Web API服务进行个性化推荐,其方法是通过解决传统算法中数据稀疏造成最终结果不够准确,以及原始数据的分类不标准造成结果产生误差的问题,通过改进相似度计算达到提升面向Web API推荐系统的准确性,同时结合Spark计算框架更好适应于海量Web API数据的处理,以及提高推荐系统的执行效率。本文的重点研究方面有以下几点:(1)本文重点提出了两种改进算法,包括改进的协同过滤算法和改进的基于内容的推荐算法。其中改进的协同过滤算法是通过改进的空值填补法和均值中心化方法解决数据稀疏性问题,然后通过计算相似度时引入用户间信任度和关注度提高推荐结果准确率。改进的基于内容的推荐算法通过引入Fasttext算法重新对数据进行分类解决原始数据不准确问题,然后引入TFIDF算法提取文本关键字提高计算相似度的准确率。(2)在Spark计算平台中将两种算法并行化,详细的介绍了并行化过程,展示了并行化后实验的对比结果。其结果表明并行化后的算法其运行速度得到大幅度提升,故针对Web API服务的个性化推荐效果更能满足用户的需求。最后本文对Web API服务的推荐系统进行了架构分析与设计,包括需求分析、系统整体架构以及算法的实现流程。