论文部分内容阅读
随着互联网信息的不断增长,人类已经淹没于数据海洋中。大量的数据铺天盖地,其中不乏有价值的信息。推荐系统作为一种信息服务技术,它能通过推荐算法帮助用户筛选出有价值的信息。本文将推荐相关技术引入到二手房网络平台中,针对传统二手房网络平台条件筛选标签复杂的问题,设计了基于二手房数据的推荐系统。通过对传统协同过滤模型的研究,本文设计了协同k近邻算法,并基于该算法设计了基于协同聚类及协同k近邻的推荐框架。这个算法框架首先将经过预处理后的数据同时从行和列这两个维度对数据进行聚类分析,这样通过行列的交叉,数据可以协同的被分为若干块;接着,确定被预测的数据所在数据块,通过在对应的数据块中采用协同k近邻推荐算法完成对数据的预测及推荐。由于推荐框架整体计算量较大,不宜全部放在线上进行,所以本文将所有的计算分为了离线处理和在线处理两部分。离线部分主要是通过协同聚类算法对原始数据集进行分块,而在线则是通过协同k近邻对数据进行预测及推荐。最后,基于协同聚类及协同k近邻的推荐框架,本文实现了一个二手房推荐系统。针对推荐系统需要快速的响应用户行为,以及对房源和用户信息不断更新的这些特点,本文搭建了MongoDB存储集群环境,使其满足在大数据环境下推荐系统的查询分析需求。