论文部分内容阅读
随着互联网信息技术的发展,网络服务商为用户提供了诸如新闻、商品、图片、视频、音频、文档等以下统一简称为物品的在线服务。为了更好的为用户提供服务,服务商会记录用户的历史行为。用户对物品的行为数据是分析用户偏好的重要信息,由于每一个用户对不同物品的行为数据具有特殊性和倾向性,如何根据有限的行为数据挖掘用户偏好,进而据此为用户提供推荐是推荐领域面临的重要问题。所谓推荐即是预测用户可能喜欢的商品、按照可能的喜欢程度排序,并把这个商品列表推荐给用户。在经典推荐算法中,基于内容的推荐算法无法充分的挖掘行为数据,推荐准确率不高,限制了其在工业中的推广应用。基于协同过滤算法的推荐在用户和物品数量级都十分庞大的情况下,构建评分矩阵需要消耗很高的计算代价,从而影响推荐系统的性能,并且对于冷启动问题没有很好的解决方案。回归树算法在推荐领域是一种实用且有效的方法,通过对用户的行为数据挖掘出用户倾向点,利用集体智慧服务于个人,与此同时,可以避免传统协同过滤算法的单机性能瓶颈、难以扩展的问题,也可以很方便的使用分布式计算的手段解决算法的实时性问题。本文基于对用户行为数据的研究,针对传统推荐算法的问题,提出了一种基于用户画像和梯度回归树的商品推荐模型(User Profile Based Gradient Boosting Regression Trees Recommendation Model),UP-GBRT。模型使用回归树算法进行特征训练,引入了结合时间衰减因子的用户画像方法,将时间对用户的偏好影响形式化的融合到用户画像中。为了增强模型在海量数据中的适应性,模型在预测阶段引入了基于相似用户的过滤方法,对海量数据进行筛减,提高了模型的适应性。模型在海量真实的房产用户行为数据上进行了相应实验,实验结果表明,模型相比较其他经典推荐算法能更有效的预测用户对房产的点击行为,从而提升推荐精度。最后,本文对房产个性化推荐系统进行了整体设计,包括数据导入模块、数据清洗标准化模块、算法引擎模块、中间数据存储模块和推荐结果输出模块。经过测试,本文所设计的房产个性化推荐系统,在推荐精度与计算效率上,达到了预期效果。