论文部分内容阅读
互联网技术的日益发展,使得数据量与日俱增,推荐系统便成为帮助用户在海量数据中过滤有效信息的首要方式,然而在实际应用过程中,由于数据稀疏性、冷启动以及推荐内容重复率过高等问题,致使系统的使用体验并不良好。并且,随着大数据时代的到来,数据的提取、分析、计算与存储,也是推荐系统在设计与实现上亟需解决的问题。针对这些问题,本文首先对推荐系统及其算法和Hadoop分布式框架的背景以及国内外发展现状进行了总结和学习,之后对基于协同过滤的推荐算法进行研究与分析,并依据现实情况,将推荐算法中相似度的求解与网络结构相结合,提出了基于用户/物品邻域的协同过滤推荐算法,同时结合数值实验,对改进算法的效果进行验证。最后,对电影推荐系统进行结构架构的需求分析与功能的设计实现,完成个性化电影推荐系统的开发。主要工作内容如下:1.结合当下互联网情形,将推荐系统中用户和物品的关系抽象成网络结构模型,并在传统二部图结构的基础上,分别考虑了用户层和物品层网络结构对协同过滤推荐算法中相似度求解的影响,提出了赋权相似度的改进方法,并且应用在基于用户邻域和物品邻域的协同过滤推荐算法中。同时,在相应数据集中进行数值实验,分别考虑用户二元评分与多元评分两种情形,通过预测结果的均方根误差、准确率和召回率等评价指标,验证改进算法的性能。2.在改进算法的基础上,结合大数据Hadoop和Spark框架,进行个性化电影推荐系统平台的设计与实现,主要包括系统的基本功能和推荐功能。基本功能涉及系统后端与前端,同时系统可以获取用户的行为数据,并完成数据去重、分词、提取等预处理功能。核心推荐引擎部分,分别采用改进的协同过滤推荐算法和基于内容的推荐算法,设计了离线推荐服务、实时推荐服务、统计推荐服务以及基于内容的推荐服务等,实现对用户的个性化电影推荐,满足用户的观影需求。