论文部分内容阅读
随着Web2.0技术的迅速发展和普及,互联网数据呈现出了爆炸式增长。为了高效地帮助用户从海量数据中找到其真正感兴趣的资源,推荐系统应运而生。推荐系统解决了信息过载问题,同时也面临着数据稀疏和冷启动问题。推荐系统成功的关键在于对用户兴趣的理解,通常用户兴趣是用户自身都难以描述的内容,标签系统正是通过利用含有丰富特征信息的标签找到用户感兴趣的资源。因此,本文针对传统推荐系统的不足,在对当前标签系统、推荐系统以及聚类算法深入研究的基础上,综合考虑标签的各个因素并结合聚类算法对传统基于标签的个性化推荐算法进行了优化,使其能够灵活应对数据稀疏、冷启动和时效性等问题,进而达到提高推荐质量的目的。为了解决传统推荐算法面临的数据稀疏和冷启动问题,在传统基于标签的个性化推荐算法的基础上,引入了用户特征,并利用用户特征对用户聚类,缓解冷启动问题。另外,用户兴趣有时会随时间发生变化,因此算法加入了时间衰减因子,根据标签的标注时间不同对标签给予不同权重。同时,为能够快速找到与目标用户兴趣相同且易被其接纳的用户,增强用户认同感,提高推荐效率和精准度,算法引入了信任关系和用户偏好。实验结果表明本文算法有效提高了推荐准确率。最后,针对传统推荐算法在处理海量数据时存在的可扩展性较差的问题,利用Hadoop平台实现算法的并行化设计,提高了计算效率,具有较好的可扩展性。